0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

商汤科技大模型产业化路径的实践经验

商汤科技SenseTime 来源:商汤科技SenseTime 2024-09-26 10:11 次阅读

AI 2.0时代,垂直领域的数据会成为重要的生产资料,并带来新的生产力突破。” 商汤科技董事长兼CEO徐立在“人工智能与数据要素产业生态大会”上说。

作为第七届数字中国建设峰会的重要组成部分,人工智能与数据要素产业生态大会在福州正式召开。商汤科技董事长兼CEO徐立与中国工程院院士陈纯、中国工程院院士邓中翰、中国科学院院士林圣彩等一同出席,徐立发表主旨演讲,分享了商汤科技在探索新质生产力发展过程中,对于大模型产业化路径的独特见解与实践经验。

会上,商汤与福建实达集团达成战略合作,双方将在人工智能算力建设、智慧城市、智慧应急、人工智能教育、城市能源管理等领域展开合作,推动福建人工智能产业创新,助力“数字中国”建设。

遵循尺度定律,

小模型也能具备大模型的能力

Scaling Law(尺度定律)被认为是大模型时代的“牛顿定律”,也是指导人工智能发展的基本法则,即随着模型参数量、数据量、算力的增加,模型的性能也会勇往直前不断提升。 之所以称之为“尺度定律”而非“规模定律”,因为它是一个资源调配的“指示器”。具体而言,尺度定律具有两个特性:

可预测性:可以跨越5~7个数量级尺度依然保持对性能的准确预测;

保序性:可以在小尺度上验证性能优劣,并在更大尺度上依然保持。

尺度定律可以指导我们在有限的研发资源上,找到最优的模型架构和数据配方,让较小的模型也能具备大模型的能力。

从以上实验数据可以看出,小模型在优化数据的情况下,性能上可以逼近甚至超越跨数量级的大模型。这背后,主要源于高质量的数据要素。

用户体验是大模型最重要标志,

感知理解和内容生成双轮循环

最新发布的GPT-4o和谷歌Gemini,为AI行业带来了启发——流畅的体验是决定大模型好坏最重要标志。流畅的体验来自实测问题上的性能,这与数据强相关,而要获得强大的数据能力,则需打通“感知理解”与“内容生成”的双轮循环。 回顾过去十年,人工智能主要解决对世界感知理解的问题,今天则进入了生成智能的时代。

如果要提升模型性能,感知理解和内容生成能力两者需相辅相成,互相协同。理解可以助力生成,而生成又可以反向推动理解能力的提升,进而形成互相循环的飞轮。

商汤「日日新5.0」大模型体系正是通过感知算法和生成算法协同研发,实现了强大的多模态感知理解和生成能力,并带来了出色的用户体验。在感知理解能力方面,不仅可以精准解读并理解图像内容,进行问题解答及互动,还能掌握话题及其背后深层含义。如果没有深层次的多模态感知理解能力,那么大模型的水平只能停留在浅层的知识记忆。

基于深度的多模态理解能力,「日日新5.0」能够精准理解图片背后隐藏的中国文化内涵

在生成能力方面,「日日新5.0」建立在深层次的场景和语言理解能力基础上,由此能够精准把握画作中场景氛围和内容的表达。

人像是评估文生图能力的关键场景之一,「日日新 5.0」生成的人像可以看出非常好皮肤的纹理,而其他几个大模型在皮肤上都做了磨皮

在很多垂直领域,中国有大量早期发展积累下来的知识,用好这些知识,就能做出差异化的生成效果。在AI 2.0即生成式人工智能时代,垂直领域的数据会成为重要的生产资料,并带来新的生产力突破。如果模型生产出来之后,又能够利用好这些数据对外服务,再次数据资产化,就能形成一个不断迭代的数据飞轮。

高效的响应速度,

是大模型能力产业化的核心

其实,最新的GPT-4o综合能力略弱于GPT-4,但由于响应速度极快,反而可以带来更出色的使用体验。

商汤端侧大模型全面对标甚至超过GPT-4。来看一项有趣的评测:将日日新·端侧大语言模型SenseChat-Lite和GPT-4都接入到著名街机游戏《街霸》中进行对决。虽然GPT-4能够输出连招和复杂的动作,但SenseChat-Lite的出拳速度更快、动作更敏捷,拳拳到位,最终获得了胜利。

红色KEN是商汤日日新端侧模型操纵,

绿色KEN是GPT-4操纵 这项评测并非比较模型性能的强弱,而是展示了在该场景下,小模型的响应速度更快。所以,只要找到合适的模型,产业化落地也会变得非常快。

SenseChat-Lite 1.8B作为商汤今年4月发布的端侧大模型,核心指标全面领先所有开源2B同级别模型,甚至在大部分测试中跨级击败了一些7B、13B模型。 当然,单纯的端侧模型,性能自然比不过千亿参数的云端大模型。但通过端云协同方案,将少数任务交给云端完成,而大部分任务放在端侧,可以大大减少推理成本和提升响应速度。 比如,在部分特定任务中,只需要调用30%的云端模型能力,就能获得90%~95%的性能体验,在不损失精度的同时,降低了70%的推理成本。

在性能方面,商汤的端侧大语言模型拥有业内最快的推理速度。比如,人眼睛最快的阅读数字是每秒20个字,而商汤的端侧大语言模型可在旗舰平台达到78.3字/秒。 扩散模型同样可在端侧实现业内最快的推理速度。在某主流平台上,商汤端侧扩散模型的推理速度单张约1.0秒,比友商云端App快10倍,并且支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

由于响应速度更快,覆盖面更广,端侧应用是生成式大模型落地的重要载体。

比如日常对话、常识问答、文案生成、相册管理、图片生成以及图片扩展等应用,都可以赋能包括手机、平板电脑VR眼镜、车载电脑在内的海量终端设备。 《时代周刊》曾在1997年、2015年、2018年分别将克隆羊、VR、人工智能作为封面。但这三个都没有真正成为用来命名那个时代的要素,原因是没有真正切入到一个应用来驱动。

去年,《时代周刊》又将ChatGPT放在了封面上,和前面三次选择不同的是,ChatGPT的核心不在于GPT这项技术,而在于将GPT叠加到了Chat这项应用上。GPT是一个2018年就已经形成共识的技术。 所有技术真正意义上普及的关键,在于应用的叠加。中国发展人工智能的最大机会,正是在各种垂直行业的方向上,有着巨大的应用叠加的空间和潜力。

过去几年,商汤与福建省各地市保持长期紧密合作,从城市治理到算力基础设施服务、模型和生态层面进行了多项布局。

商汤希望依托福州新区智算平台,推动闽港合作及各地的生态协同,共同打造以应用为驱动,以数据资产为要素的核心人工智能生态圈,繁荣AI产业发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30084

    浏览量

    268348
  • 人工智能
    +关注

    关注

    1791

    文章

    46830

    浏览量

    237474
  • 商汤科技
    +关注

    关注

    8

    文章

    493

    浏览量

    36058

原文标题:数字中国建设峰会丨商汤科技董事长兼CEO徐立:新质生产力下的大模型产业化

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    商汤科技亮相第八届中国品牌日活动

    商汤科技董事长兼CEO徐立受邀出席中国品牌发展大会圆桌对话,阐述多条关于中国科技创新品牌建设和品牌价值积累的深刻见解和实践经验商汤君这里稍作整理分享给大家。
    的头像 发表于 09-26 10:22 448次阅读

    固态电池产业化加速,企业积极布局市场

    在电动的浪潮席卷全球之际,两大核心驱动力——技术的持续革新与应用领域的广泛拓展,正引领着固态电池产业加速迈向产业化。固态电池企业在这一进程中,不仅要深耕技术路径的优化,还需精准锚定契
    的头像 发表于 09-20 15:15 459次阅读

    商汤AI大模型与中国国家篮球队达成战略合作

    商汤科技与中国国家篮球队达成战略合作,将基于商汤“日日新SenseNova5.5”大模型技术共同打造AI大模型篮球产品,推动AI大模型技术与
    的头像 发表于 07-17 09:58 645次阅读

    商汤科技与泰国DTGO集团联合发布泰语大模型

    。   「东风」泰语大模型结合了商汤与DTGO双方的专业能力——将商汤的基模型和算力优势,与DTGO的泰国语言文化优势相结合, 提供本地
    的头像 发表于 07-11 19:57 1074次阅读
    <b class='flag-5'>商汤</b>科技与泰国DTGO集团联合发布泰语大<b class='flag-5'>模型</b>

    商汤科技&quot;日日新SenseNova 5.5&quot;大模型闪耀WAIC,引领AI新纪元

    在近期举办的世界人工智能大会(WAIC)上,商汤科技携其流式多模态交互大模型“日日新SenseNova 5.5”震撼登场,不仅为大会带来了前所未有的AI体验,更通过多场主题论坛活动,深入探讨了AI大模型在各行各业的应用前景与挑战
    的头像 发表于 07-08 16:05 534次阅读

    商汤科技发布“商量”粤语版大模型

    商汤科技近日发布了针对粤语用户量身定制的商量语言大模型和商量多模态大模型。这两款模型即日起向企业用户开放API接口,同时Web版和App版也将很快向粤语区用户免费推出,以满足广大用户的
    的头像 发表于 05-31 10:52 837次阅读

    商汤科技发布“日日新SenseNova 5.0”大模型

    商汤科技近日隆重推出全新升级的“日日新SenseNova 5.0”大模型,其卓越性能赢得了业界的广泛赞誉。凭借这一行业领先的技术实力,商汤绝影成功打造了一系列车端大模型产品,并在202
    的头像 发表于 05-07 14:13 533次阅读

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》2.0

    《大语言模型“原理与工程实践”》是关于大语言模型内在机理和应用实践的一次深入探索。作者不仅深入讨论了理论,还提供了丰富的实践案例,帮助读者理
    发表于 05-07 10:30

    什么是RAG,RAG学习和实践经验

    高级的RAG能很大程度优化原始RAG的问题,在索引、检索和生成上都有更多精细的优化,主要的优化点会集中在索引、向量模型优化、检索后处理等模块进行优化
    的头像 发表于 04-24 09:17 743次阅读
    什么是RAG,RAG学习和<b class='flag-5'>实践经验</b>

    商汤大装置加速大模型能力下沉,构建智能计算新生态

    3月23~24日,2024全球开发者先锋大会(GDC)在上海成功举办。期间,商汤科技大装置执行总监成功,以及商汤科技大装置产品总监陈希受邀出席大会分论坛活动,围绕大
    的头像 发表于 03-29 15:21 548次阅读

    中科曙光凭借技术优势以及实践经验获颁“核心参编单位”证书

    近日,中国人工智能产业发展联盟面向参编单位颁发证书。中科曙光凭借技术优势以及实践经验,全程参编《面向训练任务的人工智能通用技术要求》标准(以下简称“标准”),获颁“核心参编单位”证书。
    的头像 发表于 03-25 11:05 571次阅读

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    。 为了使更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础,并开展大模型实践,复旦大学张奇教授团队结合他们在自然语言处理领域的研究
    发表于 03-11 15:16

    半固态电池产业化正在从乘用车迈向商用车

    半固态电池产业化正在从乘用车迈向商用车。
    的头像 发表于 03-05 09:39 758次阅读

    讯维集中电源控制器:案例研究与实践经验分享

    集中电源控制器在实践中的应用非常广泛,以下是一些案例研究与实践经验分享: 数据中心应用案例:在数据中心中,集中电源控制器可以实现对服务器、网络设备和存储设备等关键基础设施的电源集中管理和监控。通过
    的头像 发表于 01-30 14:59 519次阅读
    讯维集中电源控制器:案例研究与<b class='flag-5'>实践经验</b>分享

    新华社研究院:商汤“商量”获评中国大模型市场未来领袖

    SenseChat ” 在定量实测的情商维度上,位居全部10款大模型第一 , 并在定性评估中入选大模型市场未来领袖象限 。此外,商汤赋能电力AI平台智能升级的
    的头像 发表于 11-29 18:30 478次阅读
    新华社研究院:<b class='flag-5'>商汤</b>“商量”获评中国大<b class='flag-5'>模型</b>市场未来领袖