0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产存算一体超速前进 存算一体架构有机会解决很多AI面临的问题

亿铸科技 来源:雷锋网(亿铸科技) 作者:雷锋网(亿铸科技 2022-11-25 15:26 次阅读

仅仅在五、六年前,人工智能还只存在于人们的想象。雷峰网雷峰网

短短几年间AI快速扩张,AI算力和运算数据量每年都在以指数级增加,对算力的需求空前,但摩尔定律却已接近极限。

在能耗墙和存储墙的阻挡下,半导体愈来愈蹒跚的算力提升已经追不上狂奔的AI。

存算一体架构有机会让AI面临的问题迎刃而解。时代的浪潮下,一批探索存算一体的企业相继成立。

在这个领域中,国内外研究几乎站在同一起跑线上。

其中亿铸科技是将新型存储器ReRAM用于存算一体赛道的“先行者”。成立仅仅两年,亿铸科技就已能够设计出能效比超过主流计算卡十倍的基于ReRAM的存算一体AI大算力芯片

在即将到来的存算一体爆发期,国产厂商们将要迎来的,是一场与国外巨头们堂堂正正的对决。

名为GPU的马,拉不动AI的车

自1956年约翰。麦卡锡在达特茅斯会议上提出人工智能的概念,AI已经发展了70年。

70年间,AI曾经爆发过三次浪潮。

在前两次浪潮中,AI由于种种原因,最终未能普及。

直到第三次浪潮中,深度学习技术的兴起,解决了AI普适性与可维护性的问题,这一赛道才真正迎来曙光,造就了现代意义上的基于深度学习的“人工智能”。

随着深度学习的广泛应用,对算力的需求日益增加,这让能够提供大规模算力的GPU在AI领域变得越来越重要。

然而GPU毕竟不是专为人工智能而生,随着人工智能发展走入深水区,GPU的问题逐渐浮现,尤其是AI发展中的“存储墙”、“能耗墙”问题,GPU无法突破。

无论是CPU还是GPU,采用的都是存算分离的冯诺依曼架构。

在冯诺依曼架构下,80%-90%的功耗发生在数据传输上,99%的时间消耗在存储器读写过程中,导致了“存储墙”和“功耗墙”问题。

冯诺依曼架构的芯片在工作时,计算单元要先从内存中读取数据,计算完成后再存回内存,才能最终输出。

但在过去几十年中,存储器与处理器的发展严重失衡,自上世纪八十年代以来,存储器读取速率的提升远远跟不上处理器性能的增长。

这导致了计算畸形的漏斗结构:无论处理器所在的漏斗“入口”一端处理了多少数据,也只能通过存储器狭窄的“出口”输出,严重影响了数据处理的效率。

曾在AI芯片公司Wave Computing工作过的熊大鹏博士对此深有感悟。

2014年左右,熊大鹏正在从事GPGPU领域的研究,在工作中他深感能耗墙与功耗墙的限制下,人工智能难以持续发展。

熊大鹏认为,打破内存与计算隔阂的存算一体架构是人工智能未来的一个可能解。

不同于冯诺依曼架构,存储单元与计算单元一体的结构让数据不必在两者之间反复“搬运”,从而让“能耗墙”与“功耗墙”问题迎刃而解。

谈起对存算一体技术的初印象,熊大鹏说到:“2017年我第一次接触到存算一体技术,当时就震惊于怎么会有这么好的东西能够恰好解决AI芯片面临的问题。”

在初识存算一体后,熊大鹏兴趣盎然,立刻开始了着手从产业界到学界学习和调研,对存算一体建立了系统的认识。

当时,把存算一体运用到AI中还只是一种理论,熊大鹏还没有找到将他在存算一体领域的雄心落实的机会。

熊大鹏得以实现抱负的契机是与ReRAM的偶遇,这也是他在2020年创立存算一体AI芯片公司亿铸科技的关键。

存算一体的「天时」、「地利」与「人和」

2018年,熊大鹏在工作中接触到了ReRAM的领军企业Crossbar。当时正在苦苦寻找存算一体技术在AI芯片领域落地方案的他,刚一接触ReRAM,就近乎直觉地认为ReRAM有解决存算一体落地问题的能力。

存算一体的存储介质选择一般有三种方案:Flash等传统存储介质;相对成熟的易失性存储器SRAM;以及ReRAM等新型存储器。

熊大鹏说,不同的存储介质有不同的特点,也有各自最适配的应用领域,而在他看好的AI大算力芯片场景下,ReRAM则是最合适的选择。

在他看来,NAND Flash读写延时较大,性能相对落后,并且工艺节点在40nm左右,难以随先进工艺继续迭代,无法满足AI大算力芯片的计算需求。

SRAM存储器在大算力场景下则存在单位密度受限、漏电流和工程落地难度和成本较高等问题。

而ReRAM虽然在应用于模拟存算一体时也存在着精度和数模转换等难题,但在熊大鹏看来,亿铸科技选择的基于ReRAM的全数字化存算一体技术,能较好解决精度和数模转换等难题,无疑更适合应用在AI大算力芯片的场景中。

ReRAM是一种新型非易失存储器,其基本存储单元被称为忆阻器,是一种可编程电阻,其特点是在断电之后电阻值依然能够长期保持。

忆阻器可编程的性质让其非常适合在ReRAM存储单元上加上计算功能,而断电后保持数据不丢失的特性也让它能够成为可靠的存储器,这都让ReRAM与存算一体架构的要求不谋而合。

在与一家全球ReRAM新型存储技术领军企业中的老朋友们,还有斯坦福大学、德克萨斯大学奥斯汀分校、上海交通大学、复旦大学、中国科学技术大学等高校的知名科学家们经过几个月的讨论后,熊大鹏对使用ReRAM存算一体技术解决AI大算力芯片问题有了初步想法,随即开始组建团队。

用ReRAM和全数字化存算一体技术做AI芯片是一条全新的道路,前人留下的脚印甚少,过河没有石头可摸。

一开始熊大鹏也考虑过从技术更成熟的SRAM开始,再过渡到ReRAM。

最终是团队的支持给了熊大鹏信心。团队组建的过程中,熊大鹏找到了过去在Wave Computing共事过的Debu博士。

Debu博士是IEEE Fellow、曾就职于斯坦福大学,当时在Cadence担任首席科学家兼AI部门CTO,也在研究基于SRAM的存算一体IP Core,并且已经成家。如果接受熊大鹏的邀约,在家庭和事业两方面都面临着困难。

但Debu在了解到熊大鹏决定入局基于ReRAM的全数字化存算一体芯片后,顿觉这是一项面向未来的大事业,解决了他在Cadence研究过的基于SRAM 存算一体未能解决的技术瓶颈,克服种种困难最终还是决定加入到亿铸科技创业的行列中。

Debu不远千里来投,让熊大鹏感受到了有识之士对这个赛道的信心,而许多之前曾与熊大鹏有过深入交流的包括工艺器件、电路设计、架构方案和软件生态等各方专家学者的加入,则给了熊大鹏技术攻关的底气。

“不论是ReRAM还是MRAM都是比较前沿的领域,单凭企业自身很难成功,离不开新型存储器领域领先的合作伙伴企业和一流研究团队的支持。”熊大鹏说。

有了这些的支持,熊大鹏终于下定决心,决定直接从ReRAM开始。

“我们的创业团队是‘三老’团队,”熊大鹏略带调侃地说,“老同事,老同学,老朋友。”

原本就对AI芯片十分熟悉的熊大鹏和对基于SRAM存算一体拥有开发经验的Debu让亿铸科技开局已占地利,而众多老友的加入让亿铸科技又添人和。而在熊大鹏看来,存算一体的天时也正在当下。

决战近在咫尺,中国芯这次正面「亮剑」

对于国产存算一体芯片的企业们来说,前路依然漫漫,但代表着决战的鼓声已经悄然迫近。

创业者的身份外,熊大鹏还是一名在芯片领域纵横多年的投资人。

作为投资人,熊大鹏见证了许多新兴技术的成长。过往的经验告诉他,属于存算一体的时代距离现在并不遥远。

在熊大鹏看来,存算一体产业从已经实现了从端侧小算力到云端大算力的全场景覆盖,整个产业链的配套正在成熟。

同时,潜在客户对存算一体的认知也越来越清晰,从“没听说”到“有了解”再到如今已经对产品“有期待”。

在国家对能耗越来越严格的管控趋势下,数据中心对高能效比的大算力产品的需求也在高涨。而存算一体芯片超高能效的特性正好可以满足市场需求。

种种因素相叠加,熊大鹏做出判断:“2024年到2025年,存算一体的产品会全面开花。”

距离存算一体的全面爆发,还有三年时间。对于国产存算一体厂商来讲,这正是属于他们的“天时”。

亿铸科技仅正式运营两月后,就获得了由联想之星、中科创星和汇芯投资联合领投的过亿元天使轮融资。在推动ReRAM落地的关键技术上,亿铸科技也已经取得了突破。

如果用模拟或混合方式构建芯片,忆阻器在受到工艺和环境的影响时,会出现精度漂移和数模/模数转换能耗问题。这也是ReRAM落地存算一体的关键阻碍。

为了突破这一难关,亿铸科技选择攻关全数字化存算一体技术。

基于全数字化方式构造芯片,无需模数和数模信号转换器,不会受到信噪比的影响,精度可以达到32bit甚至更高,既不会产生精度损失,也不会面临模拟计算带来的诸如IR-DROP等问题。

基于全数字化方式,亿铸科技将开发业界首颗基于ReRAM的全数字化存算一体AI大算力芯片,采用chiplet技术,单模组将突破1000TOPS算力,超出GPU 250TOPS算力的四倍多。

熊大鹏表示,亿铸科技的产品落地正在快速推进,第一代芯片将于2023年落地,并在同年投片第二代芯片。

虽然一切顺利,但无论对亿铸科技还是对存算一体芯片来说,这都远远不是终点。

熊大鹏认为,在技术上实现存算一体和在商业上取得成功是两种概念。在他看来,存算一体芯片要想大规模被应用,首先要建立起自己的生态。

熊大鹏告诉我们,在大算力应用场景下,存算一体的竞争力在于构建生态系统。

仅仅“参与”到现有的生态中,这远远不够,只有跳出传统架构的局限,一开始就以存算一体作为思路构建整体系统才能真正发挥存算一体的竞争力。

亿铸科技的目标除了将存算一体架构在AI大算力领域商用落地之外,还期望和其他存算一体赛道上的伙伴们共建生态。

而在美国对我国半导体领域持续打压的背景下,存算一体芯片还承载着着冲破藩篱的使命。

前段时间,美国出台了对我国的先进制程和高性能计算设计工具EDA等的出口限制政策,这无疑将对我国AI研究的未来带来更大挑战。

熊大鹏认为,在先进工艺短期内无法实现全国产化的大前提下,国内半导体必须具备在性能表现相同的条件下发展与先进制程解耦的技术。

存算一体就是一种突破先进制程对性能限制的有效路径:亿铸科技基于成熟的28nm CMOS工艺和国内既有产业配套设计的存算一体AI大算力芯片已经可以实现7nm CMOS先进制程AI芯片10倍以上能效比和性能。

并且,在存算一体赛道上,国产芯片厂商们并非单方面的追赶。

在熊大鹏看来,与传统赛道相比,在存算一体芯片领域,国外“巨头们”并没有在这条新开辟的道路上领先太多。

“总的来说,国内外在存算一体领域差距不大,而且在某些方面,我们做的更快更好。国内做存算一体的基本都是初创公司,初创公司可以大干快上地投入,无惧国外巨头们的竞争,而这些巨头们却未必有拥抱革命性技术来革自己命的决心,效率也不一定比我们高。”熊大鹏总结道。

对于这场即将降临的决战的最终结果,熊大鹏显得信心十足:“到了存算一体全面开花的那天,我们一定能够战胜他们。”

存算一体赛道上,第一批国产挑战者已经起跑,相信在存算一体未来几年内将到来的“未来之战”中,国产芯片公司一定能够跑出存算领域的“领航者”。

作者 | 姚勇喆

编辑 | 包永刚

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • reram
    +关注

    关注

    1

    文章

    51

    浏览量

    25454
  • AI芯片
    +关注

    关注

    17

    文章

    1862

    浏览量

    34939
  • AI算力
    +关注

    关注

    0

    文章

    72

    浏览量

    8589
  • 存算一体
    +关注

    关注

    0

    文章

    100

    浏览量

    4289
  • 亿铸科技
    +关注

    关注

    0

    文章

    24

    浏览量

    1374

原文标题:亿新闻 | 仅需28nm工艺,提升AI芯片十倍能效,国产存算一体「超速前进」

文章出处:【微信号:亿铸科技,微信公众号:亿铸科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开源芯片系列讲座第24期:基于SRAM的高效计算架构

    鹭岛论坛开源芯片系列讲座第24期「基于SRAM的高效计算架构」明晚(27日)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目基于SRAM
    的头像 发表于 11-27 01:05 136次阅读
    开源芯片系列讲座第24期:基于SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b>的高效计算<b class='flag-5'>架构</b>

    直播预约 |开源芯片系列讲座第24期:SRAM一体:赋能高能效RISC-V计算

    RISC-V计算报告简介一体种先进的计算架构技术,以克服传统冯诺依曼架构中计算单元与存储
    的头像 发表于 11-16 01:10 128次阅读
    直播预约 |开源芯片系列讲座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>:赋能高能效RISC-V计算

    一体化与边缘计算:重新定义智能计算的未来

    随着数据量爆炸式增长和智能化应用的普及,计算与存储的高效整合逐渐成为科技行业关注的重点。数据存储和处理需求的快速增长推动了对计算架构的重新设计,“一体化”技术应运而生。同时,随着物
    的头像 发表于 11-12 01:05 169次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义智能计算的未来

    一体架构创新助力国产AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力
    的头像 发表于 10-23 14:48 246次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款芯片在
    发表于 09-26 13:51 366次阅读
    科技新突破:首款支持多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>AI</b>芯片成功问世

    苹芯科技引领存一体技术革新 PIMCHIP系列芯片重塑AI计算新格局

    智能芯片国产化再传利好,8月8日,国际领先的一体芯片开拓者——苹芯科技在北京召开 “于芯
    发表于 08-08 17:21 241次阅读
    苹芯科技引领存<b class='flag-5'>算</b><b class='flag-5'>一体</b>技术革新   PIMCHIP系列芯片重塑<b class='flag-5'>AI</b>计算新格局

    后摩智能推出边端大模型AI芯片M30,展现出一体架构优势

    电子发烧友网报道(文/李弯弯)近日,后摩智能推出基于一体架构的边端大模型AI芯片——后摩漫界™️M30,最高
    的头像 发表于 07-03 00:58 4128次阅读

    科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    中得到彰显。一体架构的突破传统冯·诺依曼架构的范式探索成为重要趋势。这种架构改变了
    发表于 05-16 16:38

    探索内计算—基于 SRAM 的内计算与基于 MRAM 的一体的探究

    本文深入探讨了基于SRAM和MRAM的一体技术在计算领域的应用和发展。首先,介绍了基于SRAM的内逻辑计算技术,包括其原理、优势以及在神经网络领域的应用。其次,详细讨论了基于MR
    的头像 发表于 05-16 16:10 2650次阅读
    探索<b class='flag-5'>存</b>内计算—基于 SRAM 的<b class='flag-5'>存</b>内计算与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>的探究

    科技携手北大共建一体化技术实验室,推动AI创新

    揭牌仪式结束后,王绍迪在北大集成电路学院举办的“未名·芯”论坛上做了主题演讲,分享了他对于多模态大模型时代内计算发展的见解。他强调了一体在人工智能领域的重要性及其未来发展趋势。
    的头像 发表于 05-08 17:25 900次阅读

    北京大学-知科技一体联合实验室揭牌,开启知科技产学研融合战略新升级

    5月5日,“北京大学-知科技一体技术联合实验室”在北京大学微纳电子大厦正式揭牌,北京大学集成电路学院院长蔡茂、北京大学集成电路学院副
    的头像 发表于 05-07 19:31 1387次阅读
    北京大学-知<b class='flag-5'>存</b>科技<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>联合实验室揭牌,开启知<b class='flag-5'>存</b>科技产学研融合战略新升级

    什么是通感一体化?通感一体化的应用场景

    通感一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了些典型的应用场景。 智能家居 通感一体化利用基站
    发表于 01-18 16:12 1.1w次阅读
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化的应用场景

    一体芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研发的一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。
    的头像 发表于 01-05 14:14 1316次阅读

    SRAM一体芯片的研究现状和发展趋势

    人工智能时代对计算芯片的力和能效都提出了极高要求。一体芯片技术被认为是有望解决处理器芯片“存储墙”瓶颈,大幅提升人工智能力能效和
    的头像 发表于 01-02 11:02 2346次阅读
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片的研究现状和发展趋势

    浅谈为AI力而生的-芯片

    大模型爆火之后,一体获得了更多的关注与机会,其原因之是因为
    发表于 12-06 15:00 373次阅读
    浅谈为<b class='flag-5'>AI</b>大<b class='flag-5'>算</b>力而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-<b class='flag-5'>体</b>芯片