0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存算一体芯片如何支持Transformer等不同模型?

后摩智能 来源:后摩智能 2024-01-05 14:14 次阅读

后摩智能致力于打造通用人工智能芯片,自主研发的存算一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。这一系列芯片不仅在性能上有着显著的优势,而且特别针对目前自动驾驶领域的算法进行了专门的优化。近期,后摩智能刚完成新一款技术验证芯片的量产测试,属于国内首款基于存算一体架构的7nm车规级技术验证芯片,专为Transformer 等车端大模型设计。

当前,自动驾驶等领域中,Transformer模型的应用逐渐占据主导地位。这一架构的优势在于其能够更好地捕捉长距离依赖关系,有助于提高模型对复杂场景的理解和处理能力。面对Transformer在自动驾驶中的日益增长的需求,一个关键的问题浮现出来:存算一体芯片是否能够高效部署Transformer模型?

Q1存算一体芯片能高效部署Transformer吗?

Transformer架构是一种强大的神经网络架构,能够实现高效的序列建模和复杂的任务处理,它的核心组成部分包括多层感知机(MLP)和多头注意力(MHA)。MLP是一种前馈神经网络结构,由多个层次的神经元组成,每一层都与上一层的所有神经元相连。

这些神经元通过权重进行连接。MLP在Transformer中负责对输入特征进行变换和映射,帮助网络捕捉不同层次的抽象特征;MHA允许网络在不同位置对输入序列的不同部分进行关注,从而提高模型的并行性和全局信息的捕捉能力。MHA的基本思想是通过多个注意力头(Attention Head)并行处理输入序列,每个头都学习关注输入的不同方面。

这种并行性有助于有效地处理长序列,并使网络更具扩展性和泛化能力。在部署Transformer时,AI芯片的任务就是高效执行网络中的MLP和MHA结构。这需要AI芯片能对其中所有算子都有很高的并行执行能力。

Q2多层感知机如何高效部署在存算一体芯片上?

全连接层的本质是执行两个矩阵(输入特征矩阵和权重矩阵)的矩阵乘法。我们将其中权重存放在存算单元上。将输入的特征送入存算单元,由存算单元中的计算单元直接完成乘累加操作,输出乘累加结果。由于存算单元的计算密度很高,执行这种全连接层的并行度很高,因此效率很高。另一方面,权重被保持在存算单元上,不发生移动,从而大幅降低了搬移权重所带来的能耗开销。

多头注意力是Transformer模型的一个关键组成部分,它有点像大脑的多个小模块,每个模块都负责关注输入数据的不同方面。这个结构之所以特别,是因为它包含了多个小“头”,每个“头”都在关注输入数据的不同部分。

在处理输入数据时,每个“头”都有三个关键矩阵,分别是查询(Q)、键(K)、和值(V)。通过一系列数学运算,多头注意力可以捕捉到输入序列中不同位置之间的关系。

关系计算:首先,我们让查询(Q)和键(K)进行一种特殊的数学操作,就像在查找输入数据中不同部分之间的联系。这为模型提供了对输入序列中不同位置的关注程度。

重要性映射:接着,我们通过一个函数(softmax)把刚才计算的结果映射到0到1之间,就好像在给不同位置分配注意力的“权重”,表示它们的相对重要性。

信息整合:最后,我们把刚才得到的归一化的结果与值(V)进行另一次数学操作,这样就得到了最终输出。这一步把被注意到的值通过权重相加,得到多头注意力的最终输出。

虽然这里提到的数学操作和全连接层有点相似,但在多头注意力中,查询、键、和值这三个矩阵是动态生成的。这就意味着在执行数学操作时,需要灵活的加载数据到存算单元上,这一过程的效率对于处理器性能非常关键。

为了解决这个问题,后摩智能设计了高效的存算单元数据加载硬件。这可以极大地提高存算单元中数据的替换效率,确保在多头注意力的计算中,动态产生的矩阵K、V能够快速而高效地加载到存算单元中。这种巧妙的设计使得存算一体芯片能够在执行多头注意力结构时取得最佳性能,为Transformer模型的高效运行提供了强有力的支持。

除了计算密集型的全连接层和矩阵乘法之外,后摩智能的芯片还拥有大量的向量算力和标量算力来处理其它算子,例如softmax和layernorm算子。为了充分利用这些算力资源,后摩智能采用了先进的编译优化算法。这一算法的设计使得存算单元、向量单元和标量单元能够被同时调度,实现并行执行不同的计算任务。这种并行计算的优势不仅仅体现在同一算子的多个实例之间,更在于不同算子之间的并发执行。通过同时处理各个算子,后摩智能的芯片在运行Transformer时能够达到最高的效率,极大地提升了整个计算过程的速度和效能。

综合而言,后摩智能芯片以其先进的设计理念和高效的存算一体架构,成功解决了对Transformer算法的高效支持问题。通过优化全连接层、矩阵乘法和动态加载、向量和标量运算等关键环节,后摩智能为Transformer运行的高效性和性能提供了强大的支持,为自动驾驶等领域的发展注入了新的动力。未来,后摩智能的存算一体架构芯片也将随着算法与硬件的演进,不断迭代,满足万物智能时代对算力的澎湃需求。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能芯片

    关注

    1

    文章

    119

    浏览量

    29056
  • 后摩智能
    +关注

    关注

    0

    文章

    22

    浏览量

    1177

原文标题:存算十问|(九):存算一体芯片如何支持Transformer等不同模型?

文章出处:【微信号:后摩智能,微信公众号:后摩智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    直播预约 |开源芯片系列讲座第24期:SRAM一体:赋能高能效RISC-V计算

    鹭岛论坛开源芯片系列讲座第24期「SRAM一体:赋能高能效RISC-V计算」11月27日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目SRAM
    的头像 发表于 11-16 01:10 59次阅读
    直播预约 |开源<b class='flag-5'>芯片</b>系列讲座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>:赋能高能效RISC-V计算

    一体化与边缘计算:重新定义智能计算的未来

    、人工智能(AI)技术的发展,数据量的分布性、实时性需求增加,边缘计算也逐渐从概念走向落地。本文将介绍一体化与边缘计算的核心思想及其发展趋势,探讨两者在智能
    的头像 发表于 11-12 01:05 124次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义智能计算的未来

    一体架构创新助力国产大力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 223次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款芯片
    发表于 09-26 13:51 343次阅读
    科技新突破:首款<b class='flag-5'>支持</b>多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>AI<b class='flag-5'>芯片</b>成功问世

    后摩智能首款一体智驾芯片获评突出创新产品奖

    近日,2024年6月29日,由深圳市汽车电子行业协会主办的「第十三届国际汽车电子产业峰会暨2023年度汽车电子科学技术奖颁奖典礼」在深圳宝安隆重举行。后摩智能首款一体智驾芯片——后
    的头像 发表于 09-24 16:51 443次阅读

    苹芯科技引领存一体技术革新 PIMCHIP系列芯片重塑AI计算新格局

    一体NPU和PIMCHIP-S300多模态智能感知芯片,以前沿技术加持AI与大模型推理加速各类计算任务场景,为高能效力应用开启新纪元。 
    发表于 08-08 17:21 229次阅读
    苹芯科技引领存<b class='flag-5'>算</b><b class='flag-5'>一体</b>技术革新   PIMCHIP系列<b class='flag-5'>芯片</b>重塑AI计算新格局

    一体AI芯片企业后摩智能完成数亿元战略融资

    近日,国内领先的一体AI 芯片创新企业后摩智能完成数亿元人民币的战略融资,由中国移动旗下北京中移数字新经济产业基金、上海中移数字转型产业基金(以下统称“中国移动产业链发展基金”)共
    的头像 发表于 07-15 15:32 374次阅读

    后摩智能推出边端大模型AI芯片M30,展现出一体架构优势

    电子发烧友网报道(文/李弯弯)近日,后摩智能推出基于一体架构的边端大模型AI芯片——后摩漫界™️M30,最高
    的头像 发表于 07-03 00:58 4086次阅读

    科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    一体芯片的发展历程、当前研究状态,以及基于多种存储介质(例如传统的DRAM、SRAM和Flash,以及新型的非易失性存储器如ReRAM、PCM、MRAM、FeFET)的
    发表于 05-16 16:38

    探索内计算—基于 SRAM 的内计算与基于 MRAM 的一体的探究

    本文深入探讨了基于SRAM和MRAM的一体技术在计算领域的应用和发展。首先,介绍了基于SRAM的内逻辑计算技术,包括其原理、优势以及在神经网络领域的应用。其次,详细讨论了基于MR
    的头像 发表于 05-16 16:10 2486次阅读
    探索<b class='flag-5'>存</b>内计算—基于 SRAM 的<b class='flag-5'>存</b>内计算与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>的探究

    科技携手北大共建一体化技术实验室,推动AI创新

    揭牌仪式结束后,王绍迪在北大集成电路学院举办的“未名·芯”论坛上做了主题演讲,分享了他对于多模态大模型时代内计算发展的见解。他强调了一体
    的头像 发表于 05-08 17:25 875次阅读

    北京大学-知科技一体联合实验室揭牌,开启知科技产学研融合战略新升级

    、知科技首席科学家郭昕婕博士及企业研发相关负责人参加了现场揭牌仪式。面向多模态大模型时代产业发展新需求,双方将携手踏上探索一体技术前沿
    的头像 发表于 05-07 19:31 1365次阅读
    北京大学-知<b class='flag-5'>存</b>科技<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>联合实验室揭牌,开启知<b class='flag-5'>存</b>科技产学研融合战略新升级

    什么是通感一体化?通感一体化的应用场景

    通感一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了些典型的应用场景。 智能家居 通感一体化利用基站
    发表于 01-18 16:12 1.1w次阅读
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化的应用场景

    SRAM一体芯片的研究现状和发展趋势

    人工智能时代对计算芯片力和能效都提出了极高要求。一体芯片技术被认为是有望解决处理器
    的头像 发表于 01-02 11:02 2293次阅读
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>芯片</b>的研究现状和发展趋势

    浅谈为AI大力而生的-芯片

    模型爆火之后,一体获得了更多的关注与机会,其原因之是因为
    发表于 12-06 15:00 365次阅读
    浅谈为AI大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>体</b><b class='flag-5'>芯片</b>