HBM的未来-电子发烧友网

01.HBM

高带宽内存（HBM）正在成为超大规模厂商的首选内存，但其在主流市场的最终命运仍然存在疑问。虽然它在数据中心中已经很成熟，并且由于人工智能/机器学习的需求导致使用量不断增加，但其基本设计固有的缺陷阻碍了更广泛的采用。另一方面，HBM 提供结构紧凑的 2.5D 结构尺寸，可大幅减少延迟。

Rambus产品营销高级总监 Frank Ferro 在 Rambus 设计展会上发表演讲时表示：“HBM 的优点在于，可以在可变的范围内获得所有这些带宽，并且表示获得了非常好的功耗。”

图1：实现最大数据吞吐量的HBM堆栈

“目前困扰高带宽内存的问题之一是成本，”Cadence IP 团队产品营销总监 Marc Greenberg 说道。“3D 成本相当高，相当于有一个逻辑芯片位于芯片的底部，这是你必须支付的额外硅片。然后是硅层，它位于CPU或GPU以及HBM内存的下面。然后，你需要一个更大的封装，等等。目前现存的HBM切割了消费者领域，并更早放置在服务器机房或数据中心，存在许多系统成本。相比之下，GDDR6等图形内存虽然无法提供与HBM一样多的性能，但成本却显着降低。GDDR6的单位成本性能实际上比 HBM 好，但 GDDR6 器件的最大带宽与 HBM 的最大带宽不匹配。”

Greenberg表示，这些差异为公司选择 HBM 提供了令人信服的理由，即使它可能不是他们的第一选择。“HBM 提供充足的带宽，并且每比特传输的能量极低。使用 HBM 是因为你必须这样做，因为没有其他解决方案可以为你提供所需的带宽或所需的功率。”

而且 HBM 只会变得越来越快。“我们预计 HBM3 Gen2 的带宽将提高 50%，”美光计算产品事业部副总裁兼总经理 Praveen Vaidyanathan 说道。“从美光的角度来看，我们预计 HBM3 Gen2产品将在2024财年实现量产。在2024日历年初，我们预计随着时间的流逝，它将开始为收入做出贡献。此外，我们预测美光的HBM3将贡献比DRAM更高利润。”

尽管如此，成本因素可能会像许多设计团队一样考虑更有性价比的替代方案。

Greenberg指出：“如果有任何方法可以将大问题解析为更小的部分，你可能会发现它提高了成本效益。例如，面对一个巨大的问题并且必须在一个硬件上执行所有这些操作，而且我必须在那里使用 HBM，也许我可以将其中断两个部分。让两个进程任务运行，另外一部分可能连接到 DDR6。如果我能够将问题阐释为更小的部分，那么我可能会以更小成本完成相同数量的计算。但如果你需要那么大的带宽，那么 HBM 就是你唯一的选择。”

另一个主要缺点是HBM 的 2.5D 结构会积聚热量，而其放置在接近 CPU 和 GPU 的位置会加剧这种情况。事实上，在尝试给出不良设计的理论样本时，很难想出比当前样本更糟糕的东西，当前布局将 HBM及其热敏 DRAM 堆栈放置在计算密集型热源附近，导致散热很难处理。

“最大的挑战是数据，”Greenberg说。“你有一个CPU，根据定义它会生成大量数据。你通过这个接口每秒T bits，即使每次消耗只有皮焦耳热，但每秒都会执行十亿次计算，因此你的CPU会非常热。它不仅仅是移动周围的数据。它也必须进行计算。最重要的是最不喜欢热的半导体组件，即DRAM。85 ℃左右它开始忘记东西，125℃左右则心不在焉。这是两个完全不同的事情。”

还有一个可取之处。“拥有2.5D堆栈的优势在于，CPU很热，但可以间隔一定物理距离把HBM位于CPU旁边，这样会牺牲延时性能。”他说。

但是Synopsys 内存接口 IP 解决方案产品线总监 Brett Murdock说道，“在延迟和热量之间的权衡中，延迟是不能变的。我没有看到任何人牺牲延迟，我希望他们推动物理团队寻找更多好的冷却方式，或者更好的放置方式，以保持较低的延迟。”

02.HBM和AI

虽然很容易想象计算是 AI/ML 最密集的部分，但如果没有良好的内存架构，这一切都不会发生。需要内存来存储和检索数万亿次计算。事实上，在某种程度上添加更多 CPU 并不会提高系统性能，因为内存带宽无法支持它们。这就是臭名昭着的“内存墙”瓶颈。

Quadric首席营销官 Steve Roddy 表示，从最广泛的定义来看，学习机器只是曲线函数。“在训练运行的每次迭代中，你都在努力越来越接近曲线的最佳函数。这是一个XY图，就像高中几何课一样。大型语言模型基本上是同一件事，但是是100亿维，而不是2维。”

因此，计算相对简单，但内存架构可能非常惊人。

Roddy 解释说：“其中一些模型拥有 1000 亿字节的数据，对于每次重新训练迭代，你都必须通过数据中心的背板从磁盘上取出 1000 亿字节的数据并放入计算箱中。”“在两个月的训练过程中，你必须将这组巨大的内存值来回移动数百万次。限制因素是数据的移入和移出，这就是为什么人们对 HBM 或光学互连从内存传输到计算结构的东西感兴趣。所有这些都是人们投入数亿美元风险投资的地方，因为如果你能进行每周距离或时间，你就可以最大程度地简化每周训练过程，无论是切断电源还是加快速度。”

由于所有这些原因，高带宽内存被认为是 AI/ML 的首选内存。“它提供了一些训练算法所需的最大带宽，”Rambus 的 Ferro 说。“从可以拥有多个内存堆栈从角度来看，它是可配置的，这提供了非常高的带宽。”

这就是人们对 HBM 如此感兴趣的原因。Synopsys的大多数客户都是人工智能客户，所以他们正在 LPDDR5X 接口和 HBM 接口之间进行一项重大的基本权衡。他们忽略了成本。他们真的很渴望 HBM。这是他们对技术的渴望，因为通过HBM能够在一个 SoC 周围创建可以足够大的带宽量。现在，他们可以在SoC 周围放置了 6 个 HBM 堆栈。

然而，人工智能的需求如此之高，以至于HBM减少延迟的前沿特征又推动了下一代HBM的发展。

“延迟正在成为一个真正的问题，”Ferro说。“在 HBM 的前两代中，我没有听到任何人抱怨延迟。现在我们一直收到有关延迟的问题。”

Ferro 建议，抓住当前的限制，了解数据结构极其重要。“它可能是连续的数据，例如视频或语音识别。也可能是事务性的，就像财务数据一样，可能非常随机。如果你知道数据是随机的，那么设置内存接口的方式将与流式传输视频不同。这些是基本问题，但也有层次的问题。我要在内存中使用的字长是多少？内存的块大小是多少？这个了解得越多，你设计系统的效率就越大。如果你了解了，那么你可以定制处理器，从而最大限度地提高计算能力和内存带宽。我们看到越来越多的 ASIC 式 SoC 正在瞄准特定的目标市场剖析市场，以实现更高效的处理。”

降低 HBM 成本将是一项挑战。由于将 TSV 放置在晶圆上的成本很高，因此加工成本已经明显高于标准 DRAM。这使得它无法拥有像标准 DRAM 一样大的市场。由于市场较小，规模经济导致成本在一个自给自足的过程中更高。体积越小，成本越高，但成本越高，使用的体积就越少。没有简单的方法可以解决这个问题。尽管如此，HBM 已经是一个成熟的 JEDEC 标准产品，这是一种独特的 DRAM 技术形式，能够以比 SRAM 低得多的成本提供极高的带宽。它还可以通过封装提供比 SRAM 更高的密度。它会随着时间的推移而改进，就像 DRAM 一样。随着接口的成熟，预计会看到更多巧妙的技巧来提高其速度。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉