0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型的效率腾飞,彩云科技做对了什么?

脑极体 来源:脑极体 作者:脑极体 2024-11-16 13:59 次阅读

wKgZomc4NLqAQw_DAAoSb-MlHI0658.jpg

对于绝大多数AI创业者来说,AGI的技术信仰是月亮,商业化能赚到钱的应用则是六便士,而一家中国公司,却将月亮和六便士都握在了手中。

彩云科技的CEO袁行远,一直将AGI作为自己的终生目标。大模型被认为是通往AGI之路,所以彩云科技决心为这条AGI之路扫清阻碍,通过优化Transformer架构,助力大模型效率提升,为此开发出DCFormer全新通用模型架构。

敢于啃最难啃的骨头,让彩云科技与许多只敢停留在应用层的AI公司,形成了鲜明对比。

这并不意味着彩云科技全是一群离群索居、不食人间烟火的极客。他们也打造了AI时代的爆款应用,如彩云小梦、彩云小译和彩云天气。其中2021 年上线的彩云小梦1.0,是全球领先的 AIRPG 平台,同时发布了海外版Dreamily,目前已经吸引了60%中国大陆用户、30%欧美用户、10%东南亚用户,在平台上进行AI写作。

可以看到,彩云科技的AI商业化表现也很出色,是国内为数不多能够实现盈利的AI公司。

只追求月亮会饿死,只追求商业化会活得庸俗。在AI的理想与现实之间,彩云科技究竟是如何找到平衡点的?

wKgZomc4NLuAJnlXAAJpHz4jMzM894.jpg

AGI通用人工智能,被认为是人工智能领域的圣杯。而大模型,是目前通往AGI的必由之路。2023年大模型技术火爆全球,但技术进化才刚刚开始。比如大模型的核心技术突破——Transformer架构,就有一系列问题有待解决。

想摘下AGI的圣杯,AI行业必须先跨越Transformer架构的瓶颈:

1.效率瓶颈。大模型在并行计算过程中需要频繁重写检查点(checkpoint),延长了训练周期。增强Transformer架构的计算效率,可以大幅缩减计算时间,提升大模型的开发效率。

2.能源瓶颈。大模型参数规模迈向超万亿,会消耗巨额电力资源,有新闻报道,一个十万亿或五十万亿参数的大模型就能用光一座小城市的所有电量。为了减少耗电量和能源负担,提升大模型的计算效率,缩短计算时间,已经刻不容缓。

3.普及瓶颈。一味追求scale-up的大模型技术,对算力、存储、传输、运维等各个资源的需求也直线上升,会带来高昂的落地成本和部署难度。AI的广泛应用和普及,才能推动各行各业智能化,所以大模型必须从追求“变大”到“变聪明”,底层Transformer架构的优化势在必行。

正如袁行远所说,“没有(计算)效率的提升,AI就是镜花水月”。

为了有一天人类能真正将AGI这枚月亮抱在怀里,彩云科技从一开始就瞄准了底层架构,主动担起了优化Transformer架构的技术挑战,也成为在这一领域率先取得显著成果的中国公司。

wKgZomc4NL2AR2pkAAIqtVC3Yx4497.jpg

2024年5 月,彩云科技全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》发布在arXiv平台,并顺利被AI顶会ICML2024收录,论文评分高达7分,远高于今年平均分。同时受邀在今年7月登台发表演讲,成为9473篇论文中唯二斩获Oral论文的中国企业,另一家是华为。

wKgaomc4NL2AJYK0AABYJsEvS4E730.jpg

大家想必都很好奇,论文中发布的DCFormer架构到底有什么过人之处?

我们可以把大模型训练,看作是一个大型复杂任务,需要很多个打工人(注意力头),背着自己的参数集和数据在干活。

而Transformer的核心组件——多头注意力模块(MHA),将查找选择回路和变换回路给绑定在一块儿了,交给同一个注意力头。试想一下,当一个打工人既得关注查找,又得关注变换,专注性就会受到损害,而且完成的工作大概率也跟别人有重复,这就降低了整个组织的效率。

那更合理的办法是什么呢?当然就是多雇些人、专事专办呗。让不同的“注意力头”关注不同方面,一群专业的人灵活协作,干的活效率更高,质量也更好。

所以DCFormer框架,就是给注意力头“减负”,来提高大模型的效率。

彩云科技提出的可动态组合的多头注意力(DCMHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合。这就为DCFormer框架带来了几个变化:

1.灵活性提高。由于DCMHA允许根据输入动态组合不同的查找和变换回路,让应用了DCFormer的模型,能够更灵活地处理复杂任务。

2.表达能力提高。MHA的固定绑定导致模型无法充分捕捉输入数据的多个不同特性,表达能力也受到影响。DCMHA从根本上提升了模型的表达能力。

wKgZomc4NL6AE02pAABWwChQ9P0398.jpg

3.效率提高。查找和变换被固定绑定,会导致不同的注意力头学习到相似的信息,造成功能上的重复冗余,不仅降低了计算效率,还会浪费计算资源。通过可动态组合的多头注意力(DCMHA)解绑之后,DCFormer框架实现了对Transformer架构1.7—2倍的提升,也可以让模型成本进一步下降。

总结一下,DCFormer框架从底层改变了注意力头的组合方式。如果说打破Transformer计算瓶颈,加速AGI进程,是彩云科技的逐月之旅。那么DCFormer框架,就是彩云科技为梦想所打造的一座天梯,让大模型在上面实现了效率、性能、成本优化等多方面的飞跃。

沿着DCFormer的天梯望过去,一个大模型为核心的AI时代,好像离我们真的不远了。

wKgaomc4NL6AdCJKAAKEJwa9VwM460.jpg

避免这一轮大模型的AI浪潮走向泡沫,必须让技术致用,形成商业闭环。赚到六便士,是AI获得长期生命力的前提。

从技术到商业的转化,彩云科技同样敢为人先。目前,彩云科技的AI应用已经获得了在DCFormer架构的一系列助益,有望实现商业腾飞。

比如既有能力的大幅升级。作为国内首个分钟级天气预报,街道级定位精度的天气预报服务,彩云天气基于DCFormer带来的模型效率提升,有望在未来将分钟级的高准确率预测时长从2小时扩展到3—12小时,能力进一步提升。

wKgZomc4NL-ALftPAAStOo-w0cU614.jpg

再比如全新能力的拓展。彩云科技旗下AI RPG平台彩云小梦,采用了全新的DCFormer架构,V4、V5版本有望扩展到2000-5000字的创作,再通过故事工程优化,目标是一年内可以轻松创作出达到专业作家水平的5万字长度中篇故事,同时小梦角色扮演的故事体验,也能达到专业编剧的水平。凭借优异的性能,彩云小梦在小说续写、AI陪伴等领域,已经实现了用户使用时长断崖式的领先。

wKgaomc4NL-AEqB3AAI-YHlj8-w864.jpg

不难看到,DCFormer架构为彩云科技的AI产品化、AI商业化,奠定了腾飞的基础条件。也证明,唯有基于底层技术创新,AI产品才能避免同质化竞争,打造出极具说服力和差异化的产品体验,从而建立碾压式的市场优势。

wKgZomc4NMGAK_MXAAItOKqxkj0533.jpg

大模型爆火以来,国外做底层创新、国内做应用改良,似乎成了惯例。

中国AI企业不敢向底层创新下大力气,更希望低头捡起六便士,并不是不愿意抬头追逐月亮,而是技术代际的现实差距、算力资源受限的实际情况、商业回报的约束和压力,都是切实存在的。

而提到那些敢于逐月的AI公司,我们第一时间想到的是国内科技巨头,很少人知道彩云科技是国内最早做LLM(大语言模型)的公司之一,而且敢于追逐AGI的梦想,向底层技术发起冲锋。

既能仰头逐月,也能低头搞好商业化,彩云科技可以作为一个国内AI公司找到技术和商业平衡点的成功样本。

彩云科技区别于主流AI公司的独特之处,在于其是个少见的“三有少年”:

有信仰。作为一个体量较小的科技公司,彩云科技利用效率更高的模型架构,在与世界顶级人工智能企业的对抗中取得优势。如果没有AGI的技术信仰,一个小公司是想不到、不敢做优化Transformer架构这件事的。

有技术产品化的能力。Transformer架构由谷歌率先提出,却被OpenAI摘了桃子,ChatGPT成为这一轮LLM里程碑,这得益于chatbot聊天机器人功能的产品化程度更高,更贴近大众。彩云科技的成功也在于此,并没有单纯地只发paper,而是尽快将DCFormer与产品集成,让技术尽快转化为产品落地。这种技术产品化的能力,可以让底层创新快速投向市场,形成良性循环。

有长坡厚雪的环境。创新,需要长期耐心地投入;产品化,需要深入行业和用户之中的经验和感觉。这就是巴菲特所说的“长坡厚雪”,要有足够强的盈利和长期增长的赛道。这是很多AI初创企业所缺乏,但彩云科技恰好具备的。十年间,彩云科技打造的数款足够成熟和商业化的AI产品,为技术创新营造了长坡厚雪的良好环境。

“三有少年”彩云科技,找到了理想与现实之间的平衡点,正沿着DCFormer架构的天梯,朝着AGI的月亮飞翔。这条彩云逐月之路,也让我们看到了AI产品化、商业化的清晰增长路径。

wKgZomc4NMKAOcZmAAHtSFhDzH8675.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30698

    浏览量

    268852
  • 大模型
    +关注

    关注

    2

    文章

    2417

    浏览量

    2631
收藏 人收藏

    评论

    相关推荐

    大裁员后转攻物联网,Intel做对了

    日前,Intel宣布裁员12000,并将公司的发展中心放在物联网领域,Intel的这一步走对了吗?
    发表于 04-22 11:08 909次阅读

    G473使用TIM1非对称模式做移相,用TIM8Combined PWM模式做对角的移相与门输出,为什么时序不对?

    G473使用TIM1非对称模式做移相,用TIM8Combined PWM模式做对角的移相与门输出,为啥占空比对了时序不对?
    发表于 03-14 07:49

    一种基于模型效率估计算法

    。通常异步电机的故障是由于长时间运行损耗增加、效率降低,所以电机检测比较重要的一项是检测效率。一般情况会有专用测试仪器来检测电机效率,但是都需要拆下电机,安装到专用仪器上进行测试。本文提出了一种基于
    发表于 09-01 08:09

    级联H桥多电平并网逆变器的模型预测控制研究_杨腾飞

    级联H桥多电平并网逆变器的模型预测控制研究_杨腾飞
    发表于 01-08 10:57 8次下载

    基于CRV_LMS算法的语音增强技术的研究_伍彩云

    基于CRV_LMS算法的语音增强技术的研究_伍彩云
    发表于 03-19 11:45 0次下载

    基于双线性滤波器的自适应有源消声算法的研究_伍彩云

    基于双线性滤波器的自适应有源消声算法的研究_伍彩云
    发表于 03-16 09:25 1次下载

    联想数据中心业务做对了什么?

    联想数据中心业务做对了什么? 联想数据中心在近几个季度有了很强劲的增长,在财报会上,杨元庆夸赞数据中心业务给集团业绩提供强力引擎,那么,联想数据中心业务做对了什么? 联想数据中心集团副总裁,OEM
    发表于 10-01 09:41 784次阅读

    告别乔布斯 库克做对了什么?

    上任第十年,库克功与过2020-09-16 13:43:32 创事记 微博 作者: 连线Insight 我有话说(79人参与) 来源:连线Insight(ID:lxinsight) 文/刘璐明 2011年8月11日,在家中休养的乔布斯给蒂姆库克打了一通电话,希望他到自己家中去,当时库克还在担任苹果COO,而这通电话不仅预告了一个时代的结束,也改变了库克的人生轨迹。 库克回忆起那一天,在电话中问道,应该什么时间去?,乔布斯回答现在。 在那场漫长的谈话中,乔布斯突然宣布了一个决定,让库克担任
    的头像 发表于 09-17 18:08 2631次阅读

    为何中移动5G时代重仓和彩云,投亿级资源剑指百亿产业?

    就在同一日举行的中国移动产品创新开放合作论坛上,和彩云生态白皮书也是被隆重推荐的重磅内容,该白皮书的和彩云生态计划宣称:中国移动将在 2021 年投入 10 亿级资源,引入 100+合作伙伴搭建云端数字消费新场景创造“百亿生态”。
    的头像 发表于 12-14 10:24 1877次阅读

    数字电源管理做对了-电力电子技术2009年8月

    数字电源管理做对了-电力电子技术2009年8月
    发表于 04-16 19:01 12次下载
    数字电源管理<b class='flag-5'>做对了</b>-电力电子技术2009年8月

    RT-Thread全球技术大会:RISC-V自身做对了什么?

    RT-Thread全球技术大会:RISC-V自身做对了什么?清晰的定位,设计优美简洁,支持了从教学、研究到工业界的无缝切换。               审核编辑:彭静
    的头像 发表于 05-27 10:08 1039次阅读
    RT-Thread全球技术大会:RISC-V自身<b class='flag-5'>做对了</b>什么?

    RT-Thread全球技术大会:RISC-V自身做对了什么

      RISC-V自身做对了什么:1、主要做到清晰的定位 2、支持从教学、研究到工业界的无缝切换 3、成立RISC-V基金会
    的头像 发表于 05-27 10:12 865次阅读
    RT-Thread全球技术大会:RISC-V自身<b class='flag-5'>做对了</b>什么

    连拓精密气密性测试仪操作步骤,你做对了吗?

    人们对防水性能的要求提高很多,比如智能穿戴,手机行业,户外照明等都需要防水功能。所以厂家在生产过程中,后续验收过程都会进行对其产品的气密性防水性能测试。那对于正确的气密性测试仪正确操作步骤,你真的做对了吗?如何延长气密性测试仪的寿命呢?下面让连拓精密为您解答吧!
    的头像 发表于 10-29 16:06 996次阅读
    连拓精密气密性测试仪操作步骤,你<b class='flag-5'>做对了</b>吗?

    OpenAI到底做对了什么?OpenAI发展的5大技术路线

    为什么AGI这样史诗级的革命,背后的核心推手竟然是OpenAI这样的创业公司?OpenAI到底做对了什么?
    发表于 07-24 10:50 1947次阅读
    OpenAI到底<b class='flag-5'>做对了</b>什么?OpenAI发展的5大技术路线

    亚太半导体腾飞.zip

    亚太半导体腾飞
    发表于 01-13 09:06 1次下载