0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HBM的未来

sakobpqhz 来源:算力基建 2023-11-15 15:50 次阅读

01.HBM

高带宽内存(HBM)正在成为超大规模厂商的首选内存,但其在主流市场的最终命运仍然存在疑问。虽然它在数据中心中已经很成熟,并且由于人工智能/机器学习的需求导致使用量不断增加,但其基本设计固有的缺陷阻碍了更广泛的采用。另一方面,HBM 提供结构紧凑的 2.5D 结构尺寸,可大幅减少延迟。

Rambus产品营销高级总监 Frank Ferro 在 Rambus 设计展会上发表演讲时表示:“HBM 的优点在于,可以在可变的范围内获得所有这些带宽,并且表示获得了非常好的功耗。”

8e238020-8371-11ee-939d-92fbcf53809c.png

图1:实现最大数据吞吐量的HBM堆栈

“目前困扰高带宽内存的问题之一是成本,”Cadence IP 团队产品营销总监 Marc Greenberg 说道。“3D 成本相当高,相当于有一个逻辑芯片位于芯片的底部,这是你必须支付的额外硅片。然后是硅层,它位于CPUGPU以及HBM内存的下面。然后,你需要一个更大的封装,等等。目前现存的HBM切割了消费者领域,并更早放置在服务器机房或数据中心,存在许多系统成本。相比之下,GDDR6等图形内存虽然无法提供与HBM一样多的性能,但成本却显着降低。GDDR6的单位成本性能实际上比 HBM 好,但 GDDR6 器件的最大带宽与 HBM 的最大带宽不匹配。”

Greenberg表示,这些差异为公司选择 HBM 提供了令人信服的理由,即使它可能不是他们的第一选择。“HBM 提供充足的带宽,并且每比特传输的能量极低。使用 HBM 是因为你必须这样做,因为没有其他解决方案可以为你提供所需的带宽或所需的功率。”

而且 HBM 只会变得越来越快。“我们预计 HBM3 Gen2 的带宽将提高 50%,”美光计算产品事业部副总裁兼总经理 Praveen Vaidyanathan 说道。“从美光的角度来看,我们预计 HBM3 Gen2产品将在2024财年实现量产。在2024日历年初,我们预计随着时间的流逝,它将开始为收入做出贡献。此外,我们预测美光的HBM3将贡献比DRAM更高利润。”

尽管如此,成本因素可能会像许多设计团队一样考虑更有性价比的替代方案。

Greenberg指出:“如果有任何方法可以将大问题解析为更小的部分,你可能会发现它提高了成本效益。例如,面对一个巨大的问题并且必须在一个硬件上执行所有这些操作,而且我必须在那里使用 HBM,也许我可以将其中断两个部分。让两个进程任务运行,另外一部分可能连接到 DDR6。如果我能够将问题阐释为更小的部分,那么我可能会以更小成本完成相同数量的计算。但如果你需要那么大的带宽,那么 HBM 就是你唯一的选择。”

另一个主要缺点是HBM 的 2.5D 结构会积聚热量,而其放置在接近 CPU 和 GPU 的位置会加剧这种情况。事实上,在尝试给出不良设计的理论样本时,很难想出比当前样本更糟糕的东西,当前布局将 HBM及其热敏 DRAM 堆栈放置在计算密集型热源附近,导致散热很难处理。

“最大的挑战是数据,”Greenberg说。“你有一个CPU,根据定义它会生成大量数据。你通过这个接口每秒T bits,即使每次消耗只有皮焦耳热,但每秒都会执行十亿次计算,因此你的CPU会非常热。它不仅仅是移动周围的数据。它也必须进行计算。最重要的是最不喜欢热的半导体组件,即DRAM。85 ℃左右它开始忘记东西,125℃左右则心不在焉。这是两个完全不同的事情。”

还有一个可取之处。“拥有2.5D堆栈的优势在于,CPU很热,但可以间隔一定物理距离把HBM位于CPU旁边,这样会牺牲延时性能。”他说。

但是Synopsys 内存接口 IP 解决方案产品线总监 Brett Murdock说道,“在延迟和热量之间的权衡中,延迟是不能变的。我没有看到任何人牺牲延迟,我希望他们推动物理团队寻找更多好的冷却方式,或者更好的放置方式,以保持较低的延迟。”

02.HBM和AI

虽然很容易想象计算是 AI/ML 最密集的部分,但如果没有良好的内存架构,这一切都不会发生。需要内存来存储和检索数万亿次计算。事实上,在某种程度上添加更多 CPU 并不会提高系统性能,因为内存带宽无法支持它们。这就是臭名昭着的“内存墙”瓶颈。

Quadric首席营销官 Steve Roddy 表示,从最广泛的定义来看,学习机器只是曲线函数。“在训练运行的每次迭代中,你都在努力越来越接近曲线的最佳函数。这是一个XY图,就像高中几何课一样。大型语言模型基本上是同一件事,但是是100亿维,而不是2维。”

因此,计算相对简单,但内存架构可能非常惊人。

Roddy 解释说:“其中一些模型拥有 1000 亿字节的数据,对于每次重新训练迭代,你都必须通过数据中心的背板从磁盘上取出 1000 亿字节的数据并放入计算箱中。”“在两个月的训练过程中,你必须将这组巨大的内存值来回移动数百万次。限制因素是数据的移入和移出,这就是为什么人们对 HBM 或光学互连从内存传输到计算结构的东西感兴趣。所有这些都是人们投入数亿美元风险投资的地方,因为如果你能进行每周距离或时间,你就可以最大程度地简化每周训练过程,无论是切断电源还是加快速度。”

由于所有这些原因,高带宽内存被认为是 AI/ML 的首选内存。“它提供了一些训练算法所需的最大带宽,”Rambus 的 Ferro 说。“从可以拥有多个内存堆栈从角度来看,它是可配置的,这提供了非常高的带宽。”

这就是人们对 HBM 如此感兴趣的原因。Synopsys的大多数客户都是人工智能客户,所以他们正在 LPDDR5X 接口和 HBM 接口之间进行一项重大的基本权衡。他们忽略了成本。他们真的很渴望 HBM。这是他们对技术的渴望,因为通过HBM能够在一个 SoC 周围创建可以足够大的带宽量。现在,他们可以在SoC 周围放置了 6 个 HBM 堆栈。

然而,人工智能的需求如此之高,以至于HBM减少延迟的前沿特征又推动了下一代HBM的发展。

“延迟正在成为一个真正的问题,”Ferro说。“在 HBM 的前两代中,我没有听到任何人抱怨延迟。现在我们一直收到有关延迟的问题。”

Ferro 建议,抓住当前的限制,了解数据结构极其重要。“它可能是连续的数据,例如视频语音识别。也可能是事务性的,就像财务数据一样,可能非常随机。如果你知道数据是随机的,那么设置内存接口的方式将与流式传输视频不同。这些是基本问题,但也有层次的问题。我要在内存中使用的字长是多少?内存的块大小是多少?这个了解得越多,你设计系统的效率就越大。如果你了解了,那么你可以定制处理器,从而最大限度地提高计算能力和内存带宽。我们看到越来越多的 ASIC 式 SoC 正在瞄准特定的目标市场剖析市场,以实现更高效的处理。”

降低 HBM 成本将是一项挑战。由于将 TSV 放置在晶圆上的成本很高,因此加工成本已经明显高于标准 DRAM。这使得它无法拥有像标准 DRAM 一样大的市场。由于市场较小,规模经济导致成本在一个自给自足的过程中更高。体积越小,成本越高,但成本越高,使用的体积就越少。没有简单的方法可以解决这个问题。尽管如此,HBM 已经是一个成熟的 JEDEC 标准产品,这是一种独特的 DRAM 技术形式,能够以比 SRAM 低得多的成本提供极高的带宽。它还可以通过封装提供比 SRAM 更高的密度。它会随着时间的推移而改进,就像 DRAM 一样。随着接口的成熟,预计会看到更多巧妙的技巧来提高其速度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1788

    文章

    46142

    浏览量

    235824
  • 机器学习
    +关注

    关注

    66

    文章

    8308

    浏览量

    131994
  • HBM
    HBM
    +关注

    关注

    0

    文章

    339

    浏览量

    14630

原文标题:HBM的未来

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HBM4到来前夕,HBM热出现两极分化

    电子发烧友网报道(文/黄晶晶)高带宽存储器HBM由于生成式AI的到来而异军突起,成为AI训练不可或缺的存储产品。三大HBM厂商SK海力士、三星电子、美光科技也因HBM的供应迎来了业绩的高增长。只是
    的头像 发表于 09-23 12:00 2277次阅读

    HBM3E量产后,第六代HBM4要来了!

    有消息说提前到2025年。其他两家三星电子和美光科技的HBM4的量产时间在2026年。英伟达、AMD等处理器大厂都规划了HBM4与自家GPU结合的产品,HBM4将成为未来AI、HPC、
    的头像 发表于 07-28 00:58 4589次阅读
    <b class='flag-5'>HBM</b>3E量产后,第六代<b class='flag-5'>HBM</b>4要来了!

    HBM上车之后,移动HBM有望用在手机上

    电子发烧友网报道(文/黄晶晶)据韩媒报道,三星和海力士正在开发低功耗DRAM堆叠技术,以用于移动设备上,这类DRAM被称之为移动HBM存储器,并计划2026年左右实现商业化。   移动HBM是堆叠
    的头像 发表于 09-06 00:21 2808次阅读
    继<b class='flag-5'>HBM</b>上车之后,移动<b class='flag-5'>HBM</b>有望用在手机上

    美光志在HBM市场:计划未来两年大幅提升市占率

    在全球高带宽内存(HBM)市场竞争日益激烈的背景下,美光(Micron)近日宣布了其雄心勃勃的市场拓展计划。该公司预计,在2024会计年度,将抢下HBM市场超过20%的份额,而到2025会计年度末,市占率更是计划挑战25%的高位。
    的头像 发表于 06-07 09:58 536次阅读

    中国AI芯片和HBM市场的未来

     然而,全球HBM产能几乎被SK海力士、三星和美光垄断,其中SK海力士占据AI GPU市场80%份额,是Nvidia HBM3内存独家供应商,且已于今年3月启动HBM3E量产。
    的头像 发表于 05-28 09:40 662次阅读

    台积电准备生产HBM4基础芯片

    在近日举行的2024年欧洲技术研讨会上,台积电透露了关于HBM4基础芯片制造的新进展。据悉,未来HBM4将采用逻辑制程进行生产,台积电计划使用其N12和N5制程的改良版来完成这一任务。
    的头像 发表于 05-21 14:53 598次阅读

    三星电子组建HBM4独立团队,力争夺回HBM市场领导地位

    具体而言,现有的DRAM设计团队将负责HBM3E内存的进一步研发,而三月份新成立的HBM产能质量提升团队则专注于开发下一代HBM内存——HBM4。
    的头像 发表于 05-10 14:44 472次阅读

    英伟达CEO赞誉三星HBM内存,计划采购

     提及此前有人预测英伟达可能向三星购买HBM3或HBM3E等内存,黄仁勋在会上直接认可三星实力,称其为“极具价值的公司”。他透露目前已对三星HBM内存进行测试,未来可能增加采购量。
    的头像 发表于 03-20 16:17 722次阅读

    从两会看AI产业飞跃,HBM需求预示存储芯片新机遇

    高端AI服务器GPU搭载HBM芯片已成为主流趋势。这表明,HBM芯片的需求在未来一段时间内继续保持旺盛,也将为相关企业提供了重要的机遇。
    的头像 发表于 03-12 13:59 626次阅读
    从两会看AI产业飞跃,<b class='flag-5'>HBM</b>需求预示存储芯片新机遇

    HBMHBM2、HBM3和HBM3e技术对比

    AI服务器出货量增长催化HBM需求爆发,且伴随服务器平均HBM容量增加,经测算,预期25年市场规模约150亿美元,增速超过50%。
    发表于 03-01 11:02 969次阅读
    <b class='flag-5'>HBM</b>、<b class='flag-5'>HBM</b>2、<b class='flag-5'>HBM</b>3和<b class='flag-5'>HBM</b>3e技术对比

    HBM4为何备受存储行业关注?

    当前,生成式人工智能已经成为推动DRAM市场增长的关键因素,与处理器一起处理数据的HBM的需求也必将增长。未来,随着AI技术不断演进,HBM将成为数据中心的标准配置,而以企业应用为重点场景的存储卡供应商期望提供更快的接口。
    发表于 12-02 16:30 393次阅读
    <b class='flag-5'>HBM</b>4为何备受存储行业关注?

    速度优势是HBM产品成功的关键

    速度优势是HBM产品成功的关键
    的头像 发表于 11-29 16:22 393次阅读
    速度优势是<b class='flag-5'>HBM</b>产品成功的关键

    如何加速HBM仿真迭代优化?

    如何加速HBM仿真迭代优化?
    的头像 发表于 11-29 16:13 588次阅读
    如何加速<b class='flag-5'>HBM</b>仿真迭代优化?

    英伟达将于Q1完成HBM3e验证 2026年HBM4将推出

    由于hbm芯片的验证过程复杂,预计需要2个季度左右的时间,因此业界预测,最快将于2023年末得到部分企业对hbm3e的验证结果。但是,验证工作可能会在2024年第一季度完成。机构表示,各原工厂的hbm3e验证结果将最终决定英伟达
    的头像 发表于 11-29 14:13 727次阅读
    英伟达将于Q1完成<b class='flag-5'>HBM</b>3e验证 2026年<b class='flag-5'>HBM</b>4将推出

    预计英伟达将于Q1完成HBM3e验证 2026年HBM4将推出

    由于hbm芯片的验证过程复杂,预计需要2个季度左右的时间,因此业界预测,最快将于2023年末得到部分企业对hbm3e的验证结果。但是,验证工作可能会在2024年第一季度完成。机构表示,各原工厂的hbm3e验证结果将最终决定英伟达
    的头像 发表于 11-27 15:03 806次阅读
    预计英伟达将于Q1完成<b class='flag-5'>HBM</b>3e验证 2026年<b class='flag-5'>HBM</b>4将推出