0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有效解决内存墙问题 存算一体正处在快速发展阶段

lPCU_elecfans 来源:电子发烧友网 作者:李弯弯 2021-10-29 10:02 次阅读

电子发烧友网报道(文/李弯弯)随着技术的发展,现在计算的任务越来越复杂,需要的数据也越来越多,而在冯诺依曼架构中,数据需要在存储、内存、缓存、计算单元中不断搬运,造成大部分时间、带宽、缓存、功耗都消耗在数据搬运上,而不是计算上,因此内存墙都成了一个越来越严重的问题。

这种问题在人工智能计算中尤为明显,知存科技创始人兼CEO王绍迪近日在某论坛分享到:“这种数据搬运消耗的功耗超过95%以上,带宽也会达到80%以上,比如片上缓存,1MB的SRAM和8KB的SRAM在数据搬运上消耗的功耗相差10倍。”因此业界都在思考减少内存墙问题。

存算一体有效解决内存墙问题

存算一体主要有近存计算和存内计算。近存计算可以理解为通过先进封装拉近存储、内存和计算单元的距离,比如SRAM,在冯诺依曼架构中,很多时候SRAM用作缓存,多核共同使用,这样缓存到每个核都有一定距离,数据搬运、访问时间、功耗都会增加,王绍迪介绍:“近缓存计算把SRAM与计算单元合在一起,这个SRAM只供本地计算单元使用,数据访问时间和带宽都有很大提升。”

存内计算比近存计算更高效,同时也更难以实现,存内计算一般是使用存储的参数去完成计算,比如SRAM存内计算,Flash存内计算、以及RRAM存内计算。存内计算实际上是一个计算的模块,而不再是存储的模块,实践的方式是用存储的参数去完成运算,从存储器中读出的数据是运算的结果,而不是存储的数据。

在冯诺依曼架构中,不管是做加法运算还是乘法运算,都需要把数据从存储架构中读出来,包括缓存、内存、以及片外的存储,最终将数据读到计算单元中完成运算。从缓存中读取数据,要消耗运算几倍、几十倍、甚至几百倍的功耗,从内存读取数据,搬运功耗是运算的近千倍,从外部的存储读取,达到上万倍。

因此在数据量很大的计算中,冯诺依曼架构的效率就会非常低,而存内计算,存储器中存储了参数,被处理的数据作为输入信号,被处理的信号流过存储器中所有的参数,从存储器中输出的数据就是运算的结果。

王绍迪表示,“存内计算的优势在于,能够将存储器中众多的存储单元转化为运算单元,这样能计算的并行度就会大幅提高,从原来几十、几百个并行,到存内计算几百万、几千万、甚至几亿个乘加法的并行度,运算效率很高。”

除了可以大规模并行运算,还可以很大程度节省数据带宽。简单来说,一个传统的存储器,多行多列,一次至多激活一行,读取出一行的数据,而要把多行数据读取出来,需要进行多个存储器周期,分别激活每一行,读出每一行的数据。而存内计算可以同时把输入数据给多行,同时多行的输入数据与每一行的参数做乘法运算,在列的方向直接把运算的结果读取出来,它是同时多行多列并行激活的方法。

现在的存内计算可以做到千行千列同时开启,使用效率比传统存储器提高近千倍,王绍迪谈到:“整体来看,包括输入输出,存内计算运算效率一般会有几十倍的提升,而且提升倍数还一直在增加,存内计算的发展速度很快,最近处于早期的快速发展阶段,每年都有数倍性能的提升。”

知存科技WTM2101智能解决方案

知存科技目前在存内计算领域较为领先,公司成立于2017年底,目前已经推出两款存算一体芯片,其中WTM1001已经批量量产,WTM2101处于小批量阶段,知存科技目前已经完成五轮融资。

WTM2101是一款尺寸很小的SOC芯片,包括一个1.8MB存内计算的Flash,该存储模块除了用于存内计算,也可以用于普通的存储。王绍迪介绍:“这款芯片的封装很小,可以用在可穿戴设备中,目前计算的功耗非常低,比如如果做连续100个词到300个词的识别,功耗可以控制在1mA以内,其中100个词可以功耗可以到60微安。该芯片在运行语音识别、语音增强、物体识别、智能健康,以及其他的一些AI算法上,可以把算力和效率提升20倍到50倍。”

另外WTM2101首次用了独有的专利HPU,它是一个混合计算单元,实际上是把数字计算和模拟计算结合在一起,因为模拟计算有精度上限,为了提高精度,加了一个稀疏的计算单元,可以把存内计算的精度进一步提高,最高提高4比特。

存内计算未来的发展趋势

随着存内计算的发展,未来的应用场景也会越来越广,当前存内计算主要应用在端侧,一是受精度的限制,8比特,二是受容量限制,在几兆的级别,三是算力,基本在0.1T到1T的范围。

不过未来一两年将会发展到边侧,精度会提高到12比特,容量会达到16兆到64兆,算力也可以提升到最大32T,这样可以覆盖很多边缘侧的应用需求。未来还会向云端发展,存内计算精度会达到到16比特,容量会超过1000M,算力会达到256T到1024T。

存内计算在云侧、边侧、端侧,优势各不相同,在端侧,存内计算在功耗的限制下可以提供大的算力,在边缘侧,在功耗、体积限制下也有很强的算力,在云端,可以提供更低成本的解决方案。

存内计算现在处于一个很快的发展阶段,未来几年,每年都会有很快的迭代速度。早期,产业界对存内计算的关注不多,投入也很少,最近存内计算逐渐得到越来越多的关注,王绍迪认为,未来五年存内计算都会在处在非常快速的发展阶段,在各种各样的场景中,进行规模化的落地应用。

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7461

    浏览量

    163658
  • SoC芯片
    +关注

    关注

    1

    文章

    608

    浏览量

    34883
  • 人工智能
    +关注

    关注

    1791

    文章

    46945

    浏览量

    237800
  • 存算一体
    +关注

    关注

    0

    文章

    100

    浏览量

    4289

原文标题:有效解决内存墙问题 存算一体正处在快速发展阶段

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开源芯片系列讲座第24期:基于SRAM的高效计算架构

    种先进的计算架构技术,以克服传统冯诺依曼架构中计算单元与存储单元分离导致的“内存”问题。基于SRAM的一体技术在智能计算中具有高能效、
    的头像 发表于 11-27 01:05 134次阅读
    开源芯片系列讲座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效计算架构

    科技启动首届内计算创新大赛

    内计算作为项打破“内存”“功耗”的颠覆性技术,消除了
    的头像 发表于 11-21 10:44 173次阅读

    直播预约 |开源芯片系列讲座第24期:SRAM一体:赋能高能效RISC-V计算

    RISC-V计算报告简介一体种先进的计算架构技术,以克服传统冯诺依曼架构中计算单元与存储单元分离导致的“内存
    的头像 发表于 11-16 01:10 126次阅读
    直播预约 |开源芯片系列讲座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>:赋能高能效RISC-V计算

    一体化与边缘计算:重新定义智能计算的未来

    随着数据量爆炸式增长和智能化应用的普及,计算与存储的高效整合逐渐成为科技行业关注的重点。数据存储和处理需求的快速增长推动了对计算架构的重新设计,“一体化”技术应运而生。同时,随着物
    的头像 发表于 11-12 01:05 166次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义智能计算的未来

    一体架构创新助力国产大力AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大力AI芯片腾飞》的演讲。
    的头像 发表于 10-23 14:48 246次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款芯片在力、能效
    发表于 09-26 13:51 366次阅读
    科技新突破:首款支持多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>AI芯片成功问世

    后摩智能推出边端大模型AI芯片M30,展现出一体架构优势

    电子发烧友网报道(文/李弯弯)近日,后摩智能推出基于一体架构的边端大模型AI芯片——后摩漫界™️M30,最高力100TOPS,典型功耗12W。为了进
    的头像 发表于 07-03 00:58 4128次阅读

    科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    计算都是一体架构的重要组成部分,目的是在硬件层面上优化数据处理流程,使得计算机系统能够更快速、更有效地处理大规模数据和计算密集型任务。这
    发表于 05-16 16:38

    探索内计算—基于 SRAM 的内计算与基于 MRAM 的一体的探究

    本文深入探讨了基于SRAM和MRAM的一体技术在计算领域的应用和发展。首先,介绍了基于SRAM的内逻辑计算技术,包括其原理、优势以及在
    的头像 发表于 05-16 16:10 2645次阅读
    探索<b class='flag-5'>存</b>内计算—基于 SRAM 的<b class='flag-5'>存</b>内计算与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>的探究

    科技携手北大共建一体化技术实验室,推动AI创新

    揭牌仪式结束后,王绍迪在北大集成电路学院举办的“未名·芯”论坛上做了主题演讲,分享了他对于多模态大模型时代内计算发展的见解。他强调了一体
    的头像 发表于 05-08 17:25 900次阅读

    北京大学-知科技一体联合实验室揭牌,开启知科技产学研融合战略新升级

    、知科技首席科学家郭昕婕博士及企业研发相关负责人参加了现场揭牌仪式。面向多模态大模型时代产业发展新需求,双方将携手踏上探索一体技术前沿
    的头像 发表于 05-07 19:31 1386次阅读
    北京大学-知<b class='flag-5'>存</b>科技<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>联合实验室揭牌,开启知<b class='flag-5'>存</b>科技产学研融合战略新升级

    什么是通感一体化?通感一体化的应用场景

    通感一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了些典型的应用场景。 智能家居 通感一体化利用基站
    发表于 01-18 16:12 1.1w次阅读
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化的应用场景

    一体芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研发的一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。
    的头像 发表于 01-05 14:14 1316次阅读

    SRAM一体芯片的研究现状和发展趋势

    人工智能时代对计算芯片的力和能效都提出了极高要求。一体芯片技术被认为是有望解决处理器芯片“存储”瓶颈,大幅提升人工智能
    的头像 发表于 01-02 11:02 2343次阅读
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片的研究现状和<b class='flag-5'>发展</b>趋势

    浅谈为AI大力而生的-芯片

    大模型爆火之后,一体获得了更多的关注与机会,其原因之是因为
    发表于 12-06 15:00 373次阅读
    浅谈为AI大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>体</b>芯片