0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯公布大语言模型训练新专利

科技绿洲 来源:网络整理 作者:网络整理 2025-02-10 09:37 次阅读

近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型训练领域取得了新的突破。

据专利摘要显示,该方法通过在大语言模型的训练过程中引入第一摘要文本和第二摘要文本,为模型提供了更为丰富的学习信息。这两个摘要文本在信息量上存在差异,且第一摘要文本中既包含正确语句也包含错误语句。这一设计使得模型在训练过程中,能够通过对比学习两个不同摘要文本的内容,同时区分并学习第一摘要文本中的正确语句和错误语句。

这一创新性的训练方法,有效避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。通过引入更多样化的学习信息,模型能够更好地泛化到新的数据上,从而提高其泛化性能。同时,对正确语句和错误语句的区分学习,也进一步提升了模型的准确性。

腾讯此次公布的新专利,不仅展示了其在人工智能领域的深厚技术积累,也为大语言模型的训练提供了新的思路和方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1801

    文章

    48235

    浏览量

    243259
  • 腾讯
    +关注

    关注

    7

    文章

    1678

    浏览量

    49884
  • 语言模型
    +关注

    关注

    0

    文章

    551

    浏览量

    10501
收藏 人收藏

    相关推荐

    小白学大模型训练语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地训练大型
    的头像 发表于 03-03 11:51 353次阅读
    小白学大<b class='flag-5'>模型</b>:<b class='flag-5'>训练</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    华为公布AI模型训练与车辆控制专利

    近日,华为技术有限公司在技术创新领域再次迈出重要一步,其申请的“模型训练方法、车辆的控制方法及相关装置”专利于2月18日正式公布。这一专利
    的头像 发表于 02-20 09:14 298次阅读

    语言模型开发框架是什么

    语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言
    的头像 发表于 12-06 10:28 339次阅读

    什么是大模型、大模型是怎么训练出来的及大模型作用

    ,基础模型。   大模型是一个简称,完整的叫法,应该是“人工智能预训练模型”。预训练,是一项技术,我们后面再解释。   我们现在口头上常说
    的头像 发表于 11-25 09:29 1.2w次阅读
    什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

    从零开始训练一个大语言模型需要投资多少钱?

    一,前言   在AI领域,训练一个大型语言模型(LLM)是一个耗时且复杂的过程。几乎每个做大型语言模型(LLM)
    的头像 发表于 11-08 14:15 551次阅读
    从零开始<b class='flag-5'>训练</b>一个大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    腾讯发布开源MoE大语言模型Hunyuan-Large

    近日,腾讯公司宣布成功推出业界领先的开源MoE(Mixture of Experts,专家混合)大语言模型——Hunyuan-Large。这款模型不仅在参数量上刷新了业界纪录,更在效果
    的头像 发表于 11-06 10:57 543次阅读

    摩尔线程与羽人科技完成大语言模型训练测试

    (YuRen-7b)大语言模型训练测试。测试结果显示,训练效率达到预期,夸娥千卡智算集群展现出了高度的兼容性和稳定性,为羽人科技未来的零代码训练
    的头像 发表于 08-27 16:19 662次阅读

    语言模型的预训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习到
    的头像 发表于 07-11 10:11 732次阅读

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,耳真正厉害的是Transformer,此框架被推出后直接
    发表于 05-12 23:57

    【大语言模型:原理与工程实践】大语言模型的应用

    。 关于大语言模型是否具备与人类“系统2”相似的能力,存在广泛的争议。然而,随着模型参数量的增加和大规模预训练的实施,大语言
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的预训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    全面剖析大语言模型的核心技术与基础知识。首先,概述自然语言的基本表示,这是理解大语言模型技术的前提。接着,详细介绍自然
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】核心技术综述

    的复杂模式和长距离依赖关系。 预训练策略: 预训练是LLMs训练过程的第一阶段,模型在大量的文本数据上学习语言的通用表示。常用的预
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    语言模型(LLM)是人工智能领域的尖端技术,凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习,利用神经网络框架来理解和生成自然语言文本。这些
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    处理中预训练架构Transformer,以及这些技术在现实世界中的如何应用。通过具体案例的分析,作者展示了大语言模型在解决实际问题中的强大能力,同时也指出了当前技术面临的挑战和局限性。书中对大
    发表于 04-30 15:35