0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

特斯拉的下一代AI芯片:存算一体

佐思汽车研究 来源:佐思汽车研究 2023-03-09 09:22 次阅读

ChatGPT的火爆预示了自动驾驶的方向:大模型(至少超过100亿个参数)和高算力(至少1000TOPS@FP16)。ChatGPT完美展示了大模型的优势,也让英伟达欣喜若狂,英伟达、AMD英特尔是最大受益者(英伟达最顶级的DGX-H100中的CPU是英特尔的W3495X,国内售价高达每片8万人民币),还有几乎垄断高端服务器市场的中国台湾企业广达和英业达,科技巨头每年需要花费数百亿乃至上千亿美元购买新的服务器来处理越来越大的AI模型,并且会持续数十年。

高算力让存储墙愈加明显,存储系统的成本也持续攀升,AI芯片价格越来越高,未来10万美元甚至百万美元级AI芯片也极有可能。要完美解决存储墙问题是不可能的,折中的办法是存算一体。这虽然无法解决芯片成本趋高的问题,但是可以解决1000TOPS算力的问题。

根据存储与计算的距离远近,将广义存算一体的技术方案分为三大类,分别是近存计算 (Processing Near Memory,PNM)、存内处理(Processingln Memory,PIM) 和存内计算(Computing in Memory, CIM)。其中,存内计算即狭义的存算一体。

存内计算面临的最大挑战是内存和高性能计算都是高度集中的行业,巨头们出于利润的考量,不会允许革命性的存内计算颠覆其所属的垄断行业。内存行业,美光、三星和SK Hynix在高性能存储领域市占率达100%。高性能计算领域,英特尔、AMD和英伟达的市场占有率也接近100%。台积电和三星联合垄断了高性能芯片代工领域。7纳米以下晶圆厂产能是最具话语权的武器,没有这个,高性能计算便是空中楼阁。

PNM已经非常常见,即HBM与CPU一体,所有高性能计算芯片都是如此,采用HBM堆叠,2.5D封装,硅中介层(Interposer)内联在基板上。也可以反推,没有采用HBM就不是高性能计算芯片。特斯拉二代FSD已经用上了GDDR6,下一代基本可以肯定是HBM3了。

d7ecdc00-be15-11ed-bfe3-dac502259ad0.png

PIM则是再下一阶段热点

图片来源:Planet

d81b9c0c-be15-11ed-bfe3-dac502259ad0.png

PIM已经有商业化的实例,最早的实例是Xilinx的Alveo U280

图片来源:Planet

d836f1c8-be15-11ed-bfe3-dac502259ad0.png

PIM可以大幅度降低存取功耗

图片来源:Planet

d855242c-be15-11ed-bfe3-dac502259ad0.png

图片来源:三星

AMD收购Xilinx,其中最看中的就是PIM堆叠技术,AMD后来将其用在InstinctMI100/MI250/MI150/MI210系列GPU上,这也是美国商务部禁止向中国出售的芯片。MI100的性能能够超越英伟达的上一代旗舰A100,功耗较A100降低约25%,价格也低于A100约30%。MI250与英伟达新旗舰H100持平,在FP32和FP64上,MI250更强;在FP16上,H100远超MI250。

PIM的主角还是三星,配角是AMD,三星Aquabolt-XLHBM2-PIM是目前唯一PIM内存。

Aquabolt-XL HBM2-PIM架构

d86e5050-be15-11ed-bfe3-dac502259ad0.png

图片来源:三星

PIM非常简单,就是用硅通孔(Through Silicon Via, TSV)技术将计算单元塞进内存上下BANK之间。TSV技术人类2010年就掌握了,只不过迄今还不算特别成熟,价格还是有点高。

d888ef46-be15-11ed-bfe3-dac502259ad0.png

图片来源:三星

计算单元很简单,一个FP16矩阵乘法,一个FP16矩阵加法。输入命令解码和行列地址即可。

PIM运作模式

d8b32180-be15-11ed-bfe3-dac502259ad0.png

图片来源:三星

PIM的软件栈

d8cb9292-be15-11ed-bfe3-dac502259ad0.png

图片来源:三星

在2023CES消费电子展上,AMD推出了MI300,PIM似乎升级到了HBM3。

d8e0dc1a-be15-11ed-bfe3-dac502259ad0.png

图片来源:AMD

国人一心打破美国的科技垄断,由于缺乏先进2.5D和3D封装产能和技术,中国企业对PNM和PIM完全不感兴趣,聚焦的是真正的存算一体,即存内计算。

其本质是利用不同存储介质的物理特性,对存储电路进行重新设计使其同时具备计算和存储能力,直接消除“存〞“算〞界限,使计算能效达到数量级提升的目标。在存储原位上实现计算,是真正的存算一体。存算一体理论上完美,但目前离实用至少还有10年距离。

存内计算主要包含数字和模拟两种实现方式,二者适用于不同应用场景。模拟存内计算能效高,但误差较大,适用于低精度、低功耗计算场景,如端侧可穿戴设备等。模拟存内计算还涉及复杂的模数转换器ADC)、数模转换器DAC)、跨阻放大器(TIA) 等模块。ADC和DAC领域需要几十年经验长期摸索,全球精通ADC和DAC的仅有ADI德州仪器NXP三家,其中ADI最强,正是牵涉大量模拟部分,存内计算无法使用EDA工具,导致芯片开发成本高、周期长、规模小、算力低。

一直以来,主流的存内计算大多采用模拟计算实现,近两年数字存内计算的研究热度也有所提升。模拟存内计算主要基于物理定律(欧姆定律和基尔霍夫定律),在存算阵列上实现乘加运算。数字存内计算通过在存储阵列内部加入逻辑计算电路,如与门和加法器等,使数字存内计算阵列具备存储及计算能力。数字存内计算精度高,但是其存储单元只能存储单比特数据,而目前主流人工智能训练是32或64比特数据,这严重限制了其应用范围,并且数字存内计算需增加加法树逻辑电路,很大程度上限制了面积及能效优势。也就是目前存内计算在高算力领域没有容身之地的原因。

存内计算最重要的部分就是存储器件本身,算法之类的软件部分几乎可以忽略。目前存储器主要有易失性存储器和非易失存储器件。易失性存储器在设备掉电之后数据丢失,如SRAM等。非易失性存储器在设备掉电后数据可保持不变,如NOR Flash、可变电阻随机存储器 (Resistive Random Access Memory, RRAM或ReRAM)、磁性随机存储器(Magnetoresistive Random Access Memory, MRAM)、相变存储器 (Phase ChangeMemory, PCM)等。中国企业或机构主要研究的是铁电晶体管FeFET。传统的SRAM、DRAM、NAND被三星、美光和SK Hynix垄断,因此基于传统存储的存内计算无论如何都无法对抗这三大巨头,大部分机构或企业都选择另辟蹊径。

几种新兴存储器的技术对比

d909b07c-be15-11ed-bfe3-dac502259ad0.jpg

需要指出,目前存储器制造也需要EUV***了,而EUV***被ASML垄断,又听命于美国政府。通常认为,DRAM的天花板是10nm。其原因是在传统1T1C架构下,单位元件面积不断减小,如何保证电容能够存储足够的电荷、防止相邻存储单元之间的耦合,是DRAM推进到10nm以下的无解难题,而EUV是用来做7nm以下的,DRAM目前主流是14纳米。14纳米理论上完全可以用DUV来完成,不需要EUV。

但实际情况并非如此,三星电子的1Znm节点DRAM量产结果表明,相比于DUV浸没式光学***,EUV***极大简化了制造流程,不仅可以大幅度提高光刻分辨率和DRAM性能,而且可以减少所使用的掩模数量,从而减少流程步骤的数量,减少缺陷、提高存储密度,并大幅降低DRAM生产成本,缩短生产周期。也就是说,即使EUV掩模费用(达数百万美元)远高于DUV掩模费用,使用EUV***量产DRAM也具有更高的性价比。三星电子和SK海力士公司将EUV***引入1Znm节点DRAM的量产进展顺利,并一路高歌到第五代1β节点,令DRAM三巨头中最为保守的美光公司很无奈。美光一度宣称自己用DUV也做到了11纳米,然而进入2023年后的DDR5时代,韩国双雄再一次依靠EUV***碾压了美光。美光在DDR5方面严重落后韩国双雄。

全球智能汽车领域,特斯拉是第一个用上GDDR6的企业,特斯拉也很可能第一个用上HBM2或HBM3,当然代价是芯片成本超过1000美元以上,不过以特斯拉的溢价能力,消费者愿意为高价买单。要想超越特斯拉,不如一步到位,直接上HBM3。当然了,对中国企业来说最困难的不是技术,而是供应链,晶圆级2.5D封装HBM的产能95%都在台积电手中,5%在三星手中。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7484

    浏览量

    163763
  • 存储
    +关注

    关注

    13

    文章

    4296

    浏览量

    85799
  • AI芯片
    +关注

    关注

    17

    文章

    1879

    浏览量

    34990

原文标题:特斯拉的下一代AI芯片:存算一体

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    直播预约 |开源芯片系列讲座第24期:SRAM一体:赋能高能效RISC-V计算

    鹭岛论坛开源芯片系列讲座第24期「SRAM一体:赋能高能效RISC-V计算」11月27日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目SRAM
    的头像 发表于 11-16 01:10 178次阅读
    直播预约 |开源<b class='flag-5'>芯片</b>系列讲座第24期:SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>:赋能高能效RISC-V计算

    一体化与边缘计算:重新定义智能计算的未来

    、人工智能(AI)等技术的发展,数据量的分布性、实时性需求增加,边缘计算也逐渐从概念走向落地。本文将介绍一体化与边缘计算的核心思想及其发展趋势,探讨两者在智能
    的头像 发表于 11-12 01:05 211次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>化与边缘计算:重新定义智能计算的未来

    一体架构创新助力国产大AI芯片腾飞

    在湾芯展SEMiBAY2024《AI芯片与高性能计算(HPC)应用论坛》上,亿铸科技高级副总裁徐芳发表了题为《一体架构创新助力国产大
    的头像 发表于 10-23 14:48 284次阅读

    科技新突破:首款支持多模态一体AI芯片成功问世

    一体介质,通过存储单元和计算单元的深度融合,采用22nm成熟工艺制程,有效把控制造成本。与传统架构下的AI芯片相比,该款
    发表于 09-26 13:51 401次阅读
    科技新突破:首款支持多模态<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b>成功问世

    苹芯科技引领存一体技术革新 PIMCHIP系列芯片重塑AI计算新格局

    智能芯片国产化再传利好,8月8日,国际领先的一体芯片开拓者——苹芯科技在北京召开 “
    发表于 08-08 17:21 251次阅读
    苹芯科技引领存<b class='flag-5'>算</b><b class='flag-5'>一体</b>技术革新   PIMCHIP系列<b class='flag-5'>芯片</b>重塑<b class='flag-5'>AI</b>计算新格局

    后摩智能推出边端大模型AI芯片M30,展现出一体架构优势

    电子发烧友网报道(文/李弯弯)近日,后摩智能推出基于一体架构的边端大模型AI芯片——后摩漫界™️M30,最高
    的头像 发表于 07-03 00:58 4185次阅读

    赛轮思与NVIDIA合作,利用生成式AI打造下一代车内体验

    AI 驱动的移动出行创新企业与 NVIDIA 合作,打造下一代车内体验。
    的头像 发表于 05-23 10:12 1236次阅读

    丰田、日产和本田将合作开发下一代汽车的AI芯片

    丰田、日产和本田等日本主要汽车制造商确实计划联手开发下一代汽车的软件,包括在生成式人工智能(AI)和半导体(芯片)等领域进行合作。
    的头像 发表于 05-20 10:25 969次阅读

    科技助力AI应用落地:WTMDK2101-ZT1评估板实地评测与性能揭秘

    适用于一体的存储器类型包括 PCAM、MRAM、RRAM 和 FRAM 等。其中,忆阻器 RRAM 在神经网络计算中具有特殊优势,被视为除了 SRAM
    发表于 05-16 16:38

    探索内计算—基于 SRAM 的内计算与基于 MRAM 的一体的探究

    本文深入探讨了基于SRAM和MRAM的一体技术在计算领域的应用和发展。首先,介绍了基于SRAM的内逻辑计算技术,包括其原理、优势以及在神经网络领域的应用。其次,详细讨论了基于MR
    的头像 发表于 05-16 16:10 2780次阅读
    探索<b class='flag-5'>存</b>内计算—基于 SRAM 的<b class='flag-5'>存</b>内计算与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>的探究

    科技携手北大共建一体化技术实验室,推动AI创新

    揭牌仪式结束后,王绍迪在北大集成电路学院举办的“未名·芯”论坛上做了主题演讲,分享了他对于多模态大模型时代内计算发展的见解。他强调了一体在人工智能领域的重要性及其未来发展趋势。
    的头像 发表于 05-08 17:25 937次阅读

    DPU技术赋能下一代AI力基础设施

    4月19日,在以“重构世界 奔赴未来”为主题的2024中国生成式AI大会上,中科驭数作为DPU新型力基础设施代表,受邀出席了中国智中心创新论坛,发表了题为《以网络为中心的AI
    的头像 发表于 04-20 11:31 841次阅读

    什么是通感一体化?通感一体化的应用场景

    通感一体化可广泛应用于智能家居、智慧城市、智慧交通、医疗健康等方面。文档君为大家搜集了些典型的应用场景。 智能家居 通感一体化利用基站
    发表于 01-18 16:12 1.1w次阅读
    什么是通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化?通感<b class='flag-5'>算</b><b class='flag-5'>一体</b>化的应用场景

    一体芯片如何支持Transformer等不同模型?

    后摩智能致力于打造通用人工智能芯片,自主研发的一体芯片在支持各类模型方面表现突出,包括YOLO系列网络、BEV系列网络、点云系列网络等。
    的头像 发表于 01-05 14:14 1338次阅读

    SRAM一体芯片的研究现状和发展趋势

    人工智能时代对计算芯片力和能效都提出了极高要求。一体芯片技术被认为是有望解决处理器
    的头像 发表于 01-02 11:02 2419次阅读
    SRAM<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>芯片</b>的研究现状和发展趋势