0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯在大语言模型训练领域取得新突破

科技绿洲 来源:网络整理 作者:网络整理 2025-02-10 10:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,腾讯科技(深圳)有限公司在大语言模型训练领域取得了新的技术突破,并成功申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。

据天眼查App显示,该专利摘要详细介绍了腾讯在大语言模型训练过程中的创新方法。具体而言,腾讯引入了第一摘要文本和第二摘要文本,为模型训练提供了更为丰富的学习信息。这两个摘要文本所包含的信息量不同,且第一摘要文本中既包含正确语句也包含错误语句。

在训练过程中,腾讯通过对比学习同一样本文本的两个不同摘要文本,并区分学习第一摘要文本中的正确语句和错误语句,从而避免了由于摘要文本单一而导致的模型过拟合和生成不准确等问题。这种创新性的训练方法不仅有助于提升模型的泛化性能,还能显著提高模型的准确性。

腾讯的这一新专利无疑为其在大语言模型训练领域树立了新的技术标杆。通过不断优化和升级训练技术,腾讯有望为用户提供更加智能、准确的大语言模型服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 腾讯
    +关注

    关注

    7

    文章

    1689

    浏览量

    51040
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11369
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    零基础手写大模型资料2026

    。 3. 参数初始化:训练的起点 模型参数(权重矩阵)的初始化直接影响训练效果。Xavier初始化通过根据输入输出维度调整初始值范围,使梯度反向传播时保持合理尺度。例如对于512×7
    发表于 05-01 17:44

    沐曦股份曦云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。沐曦股份旗下曦云 C 系列 GPU已完成Day 0适配,为率先支持该模型的国产算力。
    的头像 发表于 04-28 15:51 1593次阅读
    沐曦股份曦云C系列GPU产品Day 0适配<b class='flag-5'>腾讯</b>混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    燧原科技L600适配腾讯混元Hy3 preview语言模型

    2026年4月23日,腾讯混元 Hy3 preview 语言模型发布并开源,燧原 L600已同步完成对 Hy3 preview极速全面适配。
    的头像 发表于 04-28 15:13 304次阅读
    燧原科技L600适配<b class='flag-5'>腾讯</b>混元Hy3 preview<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    小米开源VLA大模型训练全流程:亚毫米级操作突破引领机器人产业革命

    机器人技术领域,小米集团近日宣布开源VLA大模型Xiaomi-Robotics-0的后训练全流程,这一突破性进展标志着智能机器人从实验室走
    的头像 发表于 04-28 09:24 1311次阅读

    腾讯Hy3 preview开源:重构AI大模型技术范式,开启智能计算新纪元

    2026年4月23日,腾讯混元正式开源其最新语言模型Hy3 preview,这款被官方定义为“混元迄今最智能的模型”的产品,以2950亿总参数、210亿激活参数的混合专家架构,配合25
    的头像 发表于 04-24 09:07 1001次阅读

    琻捷电子固态电池安全监测领域取得关键突破

    近日,琻捷电子科技(江苏)股份有限公司(以下简称“SENASIC”)固态电池安全监测领域取得关键突破:SENASIC的硫化氢H2S气体监测传感器,已完成国内头部电池企业出货。
    的头像 发表于 03-05 16:21 1194次阅读

    什么是大模型,智能体...?大模型100问,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言
    的头像 发表于 02-02 16:36 1195次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    立讯精密高速互连领域取得里程碑式突破

    近日,立讯精密自主研发的HDMI 2.2连接器及配套测试治具,正式通过HDMI Forum首批官方认证。公司成为全球首家同时获得产品端与测试端双认证的供应商,标志着高速互连领域取得里程碑式
    的头像 发表于 12-24 15:55 801次阅读
    立讯精密<b class='flag-5'>在</b>高速互连<b class='flag-5'>领域</b><b class='flag-5'>取得</b>里程碑式<b class='flag-5'>突破</b>

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖
    的头像 发表于 11-17 16:03 653次阅读
    摩尔线程新一代大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>对齐框架URPO入选AAAI 2026

    Ubuntu20.04系统中训练神经网络模型的一些经验

    本帖欲分享Ubuntu20.04系统中训练神经网络模型的一些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3658次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该
    的头像 发表于 08-07 14:42 1621次阅读
    硬件与应用同频共振,英特尔Day 0适配<b class='flag-5'>腾讯</b>开源混元大<b class='flag-5'>模型</b>

    中软国际能源化工行业大模型项目取得重大突破

    近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际能源化工行业人工智能领域取得
    的头像 发表于 07-05 17:03 1624次阅读

    沐曦MXMACA软件平台模型训练方面的优化效果

    如今的人工智能浪潮中,大规模语言模型(上百亿乃至千亿参数)正迅速改变着我们的工作和生活。然而,训练这些庞大的模型往往面临“算力不足、显存不
    的头像 发表于 07-03 14:09 2499次阅读
    沐曦MXMACA软件平台<b class='flag-5'>在</b>大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>方面的优化效果

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    对 DeepSeek 的性能突破形成直观的认识。同时,介绍 DeepSeek 的 模型家族 ,涵盖通用语言模型、多模态模型、代码生成与理解等
    发表于 06-09 14:38