0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

后发而先至的腾讯混元大模型,到底有哪些技术亮点?

鲜枣课堂 来源:鲜枣课堂 2023-09-12 17:25 次阅读

2023年的夏天已经结束了,但是,围绕AIGC大模型的关注热度,却丝毫没有衰退的意思。

在过去的大半年里,我们亲眼见证了大模型浪潮的崛起,甚至可以说是疯狂。截止7月,国内的大模型数量,已经超过130个。

这些大模型的创造者,既有国有及民营企业,也有大学、科研院所等研究机构。从某种意义上来说,发布大模型,已经成为宣示自身实力的一种方式。

不知道大家有没有注意到,国内互联网大厂百度和阿里,都早早推出了自家的大模型。而身为BAT“三巨头”之一的腾讯,却一直很低调。

几天前,9月7日,在2023腾讯全球数字生态大会上,腾讯自家的通用大语言模型——腾讯混元大模型终于亮相了。

为什么腾讯的大模型“不着急”?是他们不重视这场科技浪潮吗?还是说,他们的AI技术不足,在竞争中落后于人?

很显然,这些说法都不对。

ChatGPT是AIGC大模型浪潮的导火线,但是,它并不是大模型的最早开端。

业界对大模型的研究,其实早几年就已经开始了。当时,AIGC并没有这么高的热度。2022年底,ChatGPT横空出世,展现出惊人的自然语言能力,才彻底激发了整个社会对大模型的关注。

正如前面所说,很多企业之所以不惜一切代价搞大模型,完全是为了追逐“风口”。

腾讯集团副总裁蒋杰在采访中介绍:“在腾讯内部,混元已经内测很久了,不是现在第一天才有。”腾讯是国内最早研究大模型的企业之一。2021年,腾讯推出了千亿规模的NLP大模型。2022年,腾讯推出万亿参数的 NLP 稀疏大模型。换言之,他们的大模型研究,是国内领先的。

ChatGPT火了之后,腾讯更加理性地思考了自己的大模型战略,提出了四大灵魂拷问:

1、自己为什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么样?

4、搞出大模型之后,到底怎么用?

在经过审慎思考和激烈讨论之后,他们终于理清了自己的答案,按照自己的节奏,稳步向前推进。

腾讯混元大模型,就是在这样的背景下诞生的。

接下来,我们不妨仔细看看,腾讯混元大模型,究竟是如何解答这四个灵魂之问的。

█问题1:为什么要搞大模型?

今年3月,腾讯总裁兼投资委员会主席刘炽平,在财报电话会议上曾经表示:“AI将成为公司未来业务增长的放大器。生成式AI和基础模型技术可以补充优化腾讯的业务。…… (大模型)将在未来对每个业务线都起到正向补充作用。同时,这也有助于推出新业务。”

他还表示,“我们希望沿着正确的路线踏实前进,不急于求成,先打好基础,再追求新进展,我们的第一款产品将会是多次迭代之后的产品,整个过程将是长期的。”

他的表态,其实已经说明了腾讯对大模型的战略基调——紧密结合自身业务线,稳步推进,长期迭代。

在发布会上,腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生也提到:“大模型需要基于产业场景,与企业数据融合,才能释放出最大的价值。”

也就是说,腾讯不会为了搞大模型而搞大模型。既然要搞,就是冲着实用性去的。

基于这个目标搞出来的混元大模型,是“从实践中来,到实践中去”的实用级大模型。它关注的不是推出速度和评测跑分,而是如何真正与实际场景结合,满足用户的真实需求。

█问题2:大模型,到底该怎么搞?

大模型是一场技术博弈。既然决定要做,就必须做出差异化的竞争优势,找准技术路线。

腾讯混元大模型,最大的特点,就是——全链路自研。

行业里现有的很多大模型,都是开源大模型。东西拿来就用,依葫芦画瓢,当然推出速度会快。

蒋杰表示,腾讯是一个海量高并发的业务,开源的架构并不适应腾讯,一定要走出一套基于自主体系的研发之路。唯有自研,才能完全掌握技术内核,将大模型更好地融入到自身的技术栈中。所以,他们走上了更加具有挑战性的自研之路。

腾讯混元大模型从第一个token开始从零训练,掌握了从模型算法机器学习框架,再到AI基础设施的全链路自研技术。

算法方面,腾讯在预训练上从零启动训练,优化预训练算法及策略,精调及强化学习,改进注意力机制,并开发了思维链新算法。

机器学习框架方面,腾讯采用的是自主研发的机器学习框架Angel,训练速度相比业界主流框架提升1倍,推理速度比业界主流框架提升1.3倍。

基础设施方面,采用基于云星星海自研服务器的新一代HCC高性能算力集群,搭载了超强算力GPU,性能提升了3倍。

算力集群所基于的网络底座——星脉,具备业界最高的3.2T通信带宽,可以为AI大模型带来10倍通信性能提升。通过自研TiTa协议和自研TCCL通信库,星脉网络可将网络利用率从普通以太网的60%提升到90%以上,极大提高整体集群的算力利用率。

根据验证,腾讯新一代计算集群可以帮助混元NLP大模型训练在同等数据集下,将训练时间由50天缩短到4天。

█问题3:大模型,要搞成什么样?

全链路自研,投入虽然大,但回报也是显著的。

腾讯混元大模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的逻辑推理能力,以及可靠的任务执行能力。

相比于业界已有的大模型,腾讯混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大语言模型的幻觉比例。

使用过大模型的读者都知道,大模型很容易出现“一本正经胡说八道”的问题。也就是说,AI模型生成了不属于现实世界的内容。这就是“幻觉”。“幻觉”是大语言模型每一个厂家都应该面临的重要问题,无论技术做到什么程度,在当前的模型架构下,都无法回避“幻觉”。

针对“幻觉”问题,当前业界普遍的解决方式是采用外挂插件,即给大模型“外挂”一个知识库,使其在推理时进行检索,基于检索结果再进行输出,提高正确率。

这个方式,在遇到复杂任务时,效果有限。

腾讯混元大模型所采取的方式,是在预训练阶段,就通过“探真”算法,进行事实修正。它摆脱了对外挂的依赖,有效降低了复杂任务中的幻觉。

根据测试,经过预训练算法及策略的整体优化后,混元大模型相比其他主流开源大模型,幻觉比例降低了30%-50%。

48a4265c-514a-11ee-a25d-92fbcf53809c.png

更多的理性,更少的“胡说八道”

其次,混元大模型的“陷阱”识别能力大幅提升,可以更好地抗拒“诱导”。

人们在使用大模型时,经常会对它进行“调戏”。也就是说,问一些刁钻问题,给大模型设置“陷阱”,得到令人啼笑皆非的答案。

腾讯通过强化学习的方法,让混元大模型学会识别“陷阱”,对“调戏”说不,提升应用的安全性和智能感。根据数据显示,面对安全诱导类问题,混元大模型的拒答率提升了20%。

48d0ab5a-514a-11ee-a25d-92fbcf53809c.png

拒绝“挖坑”

除了上面提到的可靠性改进之外,混元也大幅提升了成熟性。

混元大模型覆盖了短文本和千字级别长文本生成能力。

当前市面上大模型在超长任务处理上很难实现。腾讯通过位置编码优化,提升长文的处理效果和性能,结合指令跟随优化,让产出内容更符合字数要求,从而提升超长文本的生成和续写能力。

在逻辑思考能力上,混元大模型持结合实际场景推理决策。

在大模型训练中,一些团队会让大模型通过“死记硬背”的方式学会中小学的数学题。但是在现实生活中,靠“背题”是不够的,还需要让大模型具备理解上下文的能力。腾讯推出思维链新策略,有效强化模型对问题拆解和分步思考的倾向。

以上这些特性,使得混元大模型在使用体验上和传统大模型有明显区别。它的智能化程度更好,表现更加稳定,更像是一个真正的专家和助手。

在中国信通院《大规模预训练模型技术和应用的评估方法》的标准符合性测试中,混元大模型共测评了66个能力项。在“模型开发(共测试29个能力项)”和“模型能力(共测试37个能力项)”这两个重要领域的综合评价中,均获得了当前的最高分。

█问题4:混元大模型,到底怎么用?

前面我提到,混元大模型是“从实践中来,到实践中去”的实用级大模型。为了充分发挥混元的实用价值,腾讯率先将自己的众多互联网业务与混元进行结合、落地。

目前,腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等50多个腾讯内部业务和产品,已经接入腾讯混元大模型测试并取得初步效果。

腾讯机器学习平台部副总经理王迪提到,腾讯混元大模型和各个产品的结合,并不是一种强制绑定的关系,而是更关注产品在用户体验上的优化,关注哪些地方可以通过AI提效。

例如,基于混元的腾讯会议AI小助手,可以快速实现会中问答、会议摘要、会议待办项等多种事项。

再例如,基于混元的腾讯文档智能助手功能(内测中),不仅支持数十种文本创作场景,还能生成上百种专业文书规范,以及用自然语言生成数百种Excel公式等。

王迪表示,在将大模型的能力和业务场景结合的过程中,需要做大量的工作,比如怎么把混元大模型的基础指令理解能力、文字总结能力与会议APP里AI的能力和会议内容生成能力结合。如果只是单纯将大模型直接放进去,短期不一定真的能够对业务带来很大的提升。一定是针对业务场景进行专门的优化和提效,才能达到更好的效果。

在混元大模型的研究过程中,其实就已经从腾讯丰富的应用场景中进行了技术积累。场景锻炼了模型,模型反过来服务场景,形成了良性循环。

蒋杰表示,腾讯混元大模型团队关注的首先是做好技术本身,回归本质,做好技术的突破和路径规划。在内部,会把混元所有的能力开放给腾讯所有的业务。

内部业务场景的实践,是为外部服务开放做准备。在发布会上,蒋杰郑重宣布:腾讯混元大模型已正式通过腾讯云对外开放,助力全行业。

混元大模型将作为腾讯云MaaS服务的底座,用户不仅可以直接通过API调用混元,也可以将混元作为基底模型,为不同产业场景构建专属应用。

█结语

腾讯对四大灵魂之问的探索,最终为混元大模型的问世奠定了基础。

正所谓“方向对了,努力才有意义”。腾讯在喧嚣躁动中坚持理性思考,在找准目标后,果断投入,进行艰苦自研。最终,他们拿出了能经受考验的产品,也走出了自己的独特道路。

他们的做法无疑是正确的,也带给整个行业以启示。在百模大战逐渐升级的今天,很多公司都将面对自己的灵魂拷问。

大浪淘沙沙去尽,沙尽之时见真金。唯有那些给出正确答案的大模型,才能笑到最后,成为真正的赢家。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 腾讯
    +关注

    关注

    7

    文章

    1643

    浏览量

    49398
  • ChatGPT
    +关注

    关注

    29

    文章

    1548

    浏览量

    7485
  • 大模型
    +关注

    关注

    2

    文章

    2322

    浏览量

    2479

原文标题:后发而先至的腾讯混元大模型,到底有哪些技术亮点?

文章出处:【微信号:鲜枣课堂,微信公众号:鲜枣课堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Arm成功将Arm KleidiAI软件库集成到腾讯自研的Angel 机器学习框架

    Arm 与腾讯携手合作,成功将 Arm KleidiAI 软件库集成到腾讯自研的 Angel 机器学习框架。   借助 KleidiAI 解锁卓越性能、能效和可移植性,腾讯
    的头像 发表于 11-24 15:33 284次阅读

    腾讯Large模型及云TI平台全新上线

    近日,腾讯团队最新推出的MoE模型Large”已正式开源上线。这一里程碑式的进展标志着
    的头像 发表于 11-08 11:03 367次阅读

    高通与腾讯达成战略合作

    骁龙峰会期间,高通技术公司宣布与腾讯合作,基于骁龙8至尊版移动平台,共同推动了腾讯
    的头像 发表于 11-08 09:52 344次阅读

    RTOS与Linux到底有什么区别

    很多做嵌入式开发的小伙伴都存在这样的疑惑:RTOS与Linux到底有什么区别?
    的头像 发表于 10-29 09:53 322次阅读

    CMOS运放的输入阻抗到底有多高呢?

    都说CMOS运放输入阻抗高,到底有多高呢?可有一个量化指标?
    发表于 09-06 06:59

    百度万象大会2024 聚焦智能体生态新进展

    同时,腾讯亦将推出大模型应用程序“元宝”,此乃基于其自研的模型,此前已通过网页和小程序形式发布了
    的头像 发表于 05-30 11:08 473次阅读

    腾讯器免费模型资源增至1亿tokens,模型全面降价

    腾讯方面获悉,一站式智能体创作与分发平台腾讯器即日起全面升级了模型资源扶持方案。
    的头像 发表于 05-27 14:22 753次阅读

    腾讯云大模型价格调整:-lite、-standard免费,-pro降价

    据了解,腾讯模型腾讯全链路自研的万亿参数大模型,采用混合专家
    的头像 发表于 05-23 17:05 762次阅读

    模型在端侧迅速落地,面临哪些挑战

    电子发烧友网报道(文/李弯弯)大模型技术正在快速发展,并在不同领域取得显著进展。如在设计领域,近日消息,腾讯
    的头像 发表于 05-15 01:16 2866次阅读

    科2024年天玑开发者大会展示多项尖端技术和战略计划,助力产业发展

    此外,联科与Counterpoint及阿里云通义AI、百川智能、虎牙直播、酷狗音乐、OPPO、腾讯AI Lab、腾讯、vivo等生态伙
    的头像 发表于 05-07 14:45 360次阅读

    是德科技如何赋能医疗AI大模型应用呢?

    自从ChatGPT爆火以来,各种AI大模型纷纷亮相,如百度科技的文心一言,科大讯飞的讯飞星火,华为的盘古AI大模型腾讯AI大
    的头像 发表于 02-28 09:35 2323次阅读

    网线到底有多少种连接器

    我们在谈论网线的时候,聊得最多的,一定是它的连接器,它在连接过程中扮演着极为重要的角色。网线到底有多少种连接器?本期我们将从工业级使用出发,来看看这根似乎普通的网线,在连接器上有多么努力。
    的头像 发表于 01-26 10:06 564次阅读

    全固态电池到底有哪些闪光点?

    全固态电池到底有哪些闪光点? 全固态电池是一种新型的电池技术,相比传统液态电池,具有许多闪光点。下面我将详细介绍这些闪光点。 首先,全固态电池具有更高的安全性。传统液态电池中使用的有机电解液容易引发
    的头像 发表于 01-09 17:09 718次阅读

    COB与SMD到底有什么不同?

    COB与SMD到底有什么不同?  COB和SMD是两种常见的电子元器件封装技术。它们在电子行业中被广泛应用,尤其在LED照明领域。虽然它们都用于将芯片连接到电路板上,但它们在封装技术和应用方面有一些
    的头像 发表于 12-29 10:34 1649次阅读

    去耦滤波电容怎么布局摆放,到底小还是大?

    去耦滤波电容怎么布局摆放,到底小还是大?
    的头像 发表于 12-04 15:43 2298次阅读
    去耦滤波电容怎么布局摆放,<b class='flag-5'>到底</b>是<b class='flag-5'>先</b>大<b class='flag-5'>后</b>小还是<b class='flag-5'>先</b>小<b class='flag-5'>后</b>大?