近日,腾讯科技(深圳)有限公司在大语言模型训练领域取得了新的技术突破,并成功申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。
据天眼查App显示,该专利摘要详细介绍了腾讯在大语言模型训练过程中的创新方法。具体而言,腾讯引入了第一摘要文本和第二摘要文本,为模型训练提供了更为丰富的学习信息。这两个摘要文本所包含的信息量不同,且第一摘要文本中既包含正确语句也包含错误语句。
在训练过程中,腾讯通过对比学习同一样本文本的两个不同摘要文本,并区分学习第一摘要文本中的正确语句和错误语句,从而避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。这种创新性的训练方法不仅有助于提升模型的泛化性能,还能显著提高模型的准确性。
腾讯的这一新专利无疑为其在大语言模型训练领域树立了新的技术标杆。通过不断优化和升级训练技术,腾讯有望为用户提供更加智能、准确的大语言模型服务。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
腾讯
+关注
关注
7文章
1689浏览量
51040 -
语言模型
+关注
关注
0文章
575浏览量
11369
发布评论请先 登录
相关推荐
热点推荐
零基础手写大模型资料2026
。
3. 参数初始化:训练的起点
模型参数(权重矩阵)的初始化直接影响训练效果。Xavier初始化通过根据输入输出维度调整初始值范围,使梯度在反向传播时保持合理尺度。例如对于512×7
发表于 05-01 17:44
沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型
4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。沐曦股份旗下曦云 C 系列 GPU已完成Day 0适配,为率先支持该模型的国产算力。
燧原科技L600适配腾讯混元Hy3 preview语言模型
2026年4月23日,腾讯混元 Hy3 preview 语言模型发布并开源,燧原 L600已同步完成对 Hy3 preview极速全面适配。
小米开源VLA大模型后训练全流程:亚毫米级操作突破引领机器人产业革命
在机器人技术领域,小米集团近日宣布开源VLA大模型Xiaomi-Robotics-0的后训练全流程,这一突破性进展标志着智能机器人从实验室走
腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元
2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合25
琻捷电子在固态电池安全监测领域取得关键突破
近日,琻捷电子科技(江苏)股份有限公司(以下简称“SENASIC”)在固态电池安全监测领域取得关键突破:SENASIC的硫化氢H2S气体监测传感器,已完成国内头部电池企业出货。
立讯精密在高速互连领域取得里程碑式突破
近日,立讯精密自主研发的HDMI 2.2连接器及配套测试治具,正式通过HDMI Forum首批官方认证。公司成为全球首家同时获得产品端与测试端双认证的供应商,标志着在高速互连领域取得里程碑式突
在Ubuntu20.04系统中训练神经网络模型的一些经验
本帖欲分享在Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
发表于 10-22 07:03
3万字长文!深度解析大语言模型LLM原理
我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
中软国际在能源化工行业大模型项目取得重大突破
近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际在能源化工行业人工智能领域取得了
【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘
对 DeepSeek 的性能突破形成直观的认识。同时,介绍 DeepSeek 的 模型家族 ,涵盖通用语言模型、多模态模型、代码生成与理解等
发表于 06-09 14:38
腾讯在大语言模型训练领域取得新突破
评论