在 DRAM 世界中,散热问题正处于危机点。在 14nm 及以下,在最先进的封装方案中,可能需要一个全新的指标来解决热密度如何越来越多地将小问题变成大问题的乘数效应。
一些过热的晶体管可能不会对可靠性产生很大影响,但数十亿个晶体管产生的热量会影响可靠性。对于 AI/ML/DL 设计尤其如此,高利用率会增加散热,但热密度会影响每个先进的节点芯片和封装,这些芯片和封装用于智能手机、服务器芯片、AR/VR 和许多其他高-性能设备。对于所有这些,DRAM布局和性能现在是首要的设计考虑因素。
Nantero 的首席系统架构师、《The JEDEC DDR5 NVRAM 规范。“从 90° 到 95°C,它开始恐慌。超过 95°C,您将开始丢失数据,因此您最好开始关闭系统。”
Gervasi 说,这些数字基于 14nm 技术。他预计先进节点和先进封装的情况会更糟。“当你缩小到 10nm、7nm、5nm 或 3nm 时,会发生什么?你的联系失控了。你让自己更容易受到串扰的影响,所以横锤开始变得更加危机。这是一个非常严重的问题。”
造成这种情况的主要原因之一是 DRAM 的基本设计。尽管 DRAM 接口的数量不断增加——无论是 DDR5、LPDDR5、GDDR6、HBM 还是其他接口——它们都保留了基本相似的结构。
“DRAM 芯片的核心基本上是一个连接到开关的非常小的电容器,” Cadence产品营销集团总监 Marc Greenberg 说。“要将数据写入该单元,您允许电流流入该电容器以从该单元读取数据。你能感觉到那个电容器上是否有电荷。”
不幸的是,这导致了一个众所周知的缺点。“存储在这些微型电容器上的电荷是相对少量的电荷,”格林伯格说。“当它变热时,它对泄漏非常敏感。”
无论架构多么新颖,大多数基于 DRAM 的内存仍面临因过热而导致性能下降的风险。易失性内存的刷新要求(作为标准指标,大约每 64 毫秒一次)加剧了风险。“当您将温度提高到 85°C 以上时,您需要更频繁地刷新电容器上的电荷,”格林伯格说。“因此,您将开始转向更频繁的刷新周期,以解释由于设备变得越来越热,电荷从这些电容器中泄漏得更快的事实。不幸的是,刷新该电荷的操作也是电流密集型操作,它会在 DRAM 内部产生热量。天气越热,你就越需要更新它,但你会继续让它变得更热,整个事情就会分崩离析。”
这是不归路。“如果一个 DRAM 由于热量/热量而发生故障,那么其他 DRAM 很可能也会发生故障,” Rambus的研究员和杰出发明家 Steven Woo 说。“原因是所有的 DRAM 通常都彼此靠近,所以如果温度很高,那么对所有 DRAM 都是危险的。即使使用强大的服务器内存系统,由于与热相关的故障而仅丢失几个 DRAM 也可能意味着整个系统出现故障。所以热量和热量对于内存系统来说是一个非常重要的问题。”
它不仅仅是服务器。一个芯片上大约有 80 亿个晶体管,手机会变得很热,可能需要在冰箱里呆上几分钟。发生这种情况时,应用程序将无法正常运行。
对于越来越密集的高级封装也是如此。Synopsys研究员Victor Moroz 说:“热量成为内存的一个问题,特别是在使用堆叠技术时,例如逻辑上的 SRAM 。” “当你这样做时,会产生影响,因为那是它从相邻逻辑中溢出热量的时候,这对内存来说是一件坏事——对于 SRAM 来说,不是那么多,但对于 DRAM 来说这是一件大事,因为这个刷新时间成倍地依赖于温度,因为它是一个结泄漏。当你把DRAM和逻辑放在同一个封装里,如果是高性能计算的逻辑,那么DRAM就会吃亏。你的刷新时间缩短了,你必须更频繁地刷新它。”
多年来,对耐热性的需求不断增加。“当我第一次加入公司时,0° 或负 40°C 可能是低端,而高端则为 100° 或 110°C,”Woo 说。“但如今,汽车行业需要一些最极端的温度保证。”
更高的温度会导致更高的刷新率,从而降低性能,尤其是在数据密集型应用程序中。“在某些情况下,如果温度接近可接受的工作范围的上限,系统可能会选择提高 DRAM 的刷新率,”他说。“DRAM 保留其数据的时间取决于温度,在更高的温度下,可能需要提高刷新率以确保数据不会丢失。更高的刷新率意味着我们正在占用 DRAM 的一些带宽,因此系统的性能可能会在更高的刷新率下受到影响。”
这必须融入设计。“例如,如果你正在设计一个 I/O 控制器,你就会有这个数据流被扔给你,你需要吸收它,”Gervasi 解释说。“在当今设计所有线卡的 DRAM 世界中,如果 DRAM 刷新 350 纳秒,则该内存处于离线状态。但数据流不会停止。这意味着您必须围绕缓冲数据设计整个架构 350 纳秒,然后才能再次开始清空该缓冲区。”
尝试调整刷新率会导致不愉快的权衡。“现在 5% 的系统性能专门用于保留您已经编写的内容,”Gervasi 说。“这是解决办法吗?显然是这样,因为如果人们想要在 85°C 以上运行,就必须这样做——放弃一些系统性能以获得数据完整性。”
内存选择很重要
为了应对这些担忧,半导体生态系统正在尝试多种解决方案,以最大限度地减少热问题并提高可靠性。是德科技内存解决方案项目经理 Randy White 指出,LPDDR 通过整合一种称为“温度补偿自刷新”的功能来解决刷新问题。 “当您需要刷新内存库时,芯片上有一个内置温度传感器。有一个查找表显示,“核心温度每升高 1 度,就需要按比例增加刷新周期的频率。” 同样,DDR5 DRAM 现在包括一个内部温度传感器。设计精确的片上温度传感器很困难,因此它的精度只有 +/-5°C。但总比没有好,这就是 DDR4 的存在。这至少有助于了解何时打开风扇,并大致说明气流设计的效果如何。”
在标准层面,JEDEC 一直在尝试可能的修复方案,Gervasi 说,“我们已经在 DRAM 内部设置了热跳闸点,并讨论了在下一代拥有后门访问端口的可能性,DRAM 可以在说,‘我这里太热了。你需要做点什么。要么减慢数据访问速度,要么加快风扇速度。‘”
格林伯格说,市场上已经流行的一种方法是在芯片中内置纠错功能。“在更先进的 DRAM 类型中,如 LPDDR5 和 DDR5 等密度非常高的类型,内存制造商正在实施片上纠错。当一个位由于其电荷泄漏而变得不可读时,DRAM 设备上的纠错电路能够通过将该位单元中应该存在的数据与它周围的其他位单元以及一些错误拼凑在一起来纠正该错误校正位,也包含在 DRAM 芯片中。”
这种技术使内存制造商能够提供扩展温度范围的 DRAM。许多方法都基于汉明码,这是一种可以追溯到打孔带时代的纠错方案,但仍有助于纠正一个错误并检测两个错误。更先进的方法也已进入市场。当然,没有人会透露他们的专有算法,但在之前的博客文章中,Synopsys 的高级技术营销经理 Vadhiraj Sankaranarayanan 对 DRAM 纠错进行了高级概述。
Cadence 和其他公司还为高可靠性应用提供了超出 ECC 现有功能的额外校正。
十多年来一直在取笑该行业的一项技术是微流体冷却。除了散热器、风扇或外部液体冷却等标准商用冷却元件外,学术实验室正在进行的实验正在将冷却直接整合到芯片中,这种方法称为集成微流体冷却,其中微流体通道被蚀刻到芯片中,允许冷却液流过它。
尽管这在理论上听起来像是一个近乎完美的解决方案,并且已被证明可以在实验室中工作,但Siemens Digital Industries Software的电子和半导体行业负责人 John Parry指出,它不太可能在商业生产中发挥作用。“从流体腐蚀到泄漏问题,您都遇到了各种问题,因为您正在处理极小、非常精细的物理几何形状。他们被抽了。我们通常发现与之相关的可靠性最低的功能之一是机电设备,例如风扇和泵,因此您最终会在许多不同的方向上变得复杂。”
不同的方法
Nantero 的 NRAM 是经过彻底重新思考并成功走出实验室的内存设计。它不是 DRAM,而是由碳纳米管制成的非易失性芯片,并且已经证明它可以承受极端的热条件。概念验证:Gervasi 指出,它在修复哈勃望远镜的航天飞机任务中在太空中进行了测试。
对于 JEDEC,Gervasi 正在开发允许 NRAM 芯片无缝插入 DRAM 的规范。但不管 NRAM 最终取得怎样的成功,他认为碳至少提供了一条摆脱热难题的方法。“碳纳米管是卷起的钻石。它们几乎是热分布。它们实际上将被部署,即使它们不将它们用作存储单元,因为这是进行热扩散和热分布的好方法。碳纳米管也被讨论用于印刷电路板布线或芯片布线,因为它在热分布方面非常完美。”
格林伯格说,无论选择何种芯片和其他组件,都必须在设计阶段左移并模拟热问题,而不是将它们视为以后可以修复的不便。“你一定要考虑事情会变得多热。这往往是事后的想法。人们只是假设要完成您必须做的计算工作,总有一个更大的散热器可以购买。那些制造电池供电设备、手机、平板电脑和手表的人关心的是功耗,而不是热量。可以采用许多模拟技术来改善功耗和改善散热状况。”
当然,生产前的模拟需要与生产后的物理分析相结合,特别是测试芯片并根据它们的性能对它们进行分类。“如果可以的话,你真的想建立一种设计,因为这可以让你获得规模经济,”Rambus 的 Woo 说。“然后你可能想根据不同的规格对其进行测试。测试流程是当你有机会说,‘这个设备实际上覆盖了非常广泛的范围,所以也许我们可以把它卖到汽车市场。
最后,如果更糟到绝对最坏,可以更改规范,但这对于某些用例(例如移动设备)可能是一场灾难。相比之下,允许大型数据中心中的芯片温度升高可能会带来令人惊讶的环境效益。至此,是德科技的 White 回忆说,一家公司曾要求 JEDEC 将工作温度的规格提高 5 度。对潜在节省的估计是惊人的。根据他们每年用于冷却的能源消耗量,他们计算出 5 度的变化可以转化为每年关闭三个燃煤电厂。JEDEC 最终在这个建议上妥协了。
-
DRAM
+关注
关注
40文章
2311浏览量
183451 -
晶体管
+关注
关注
77文章
9684浏览量
138105 -
NRAM
+关注
关注
1文章
12浏览量
9522
发布评论请先 登录
相关推荐
评论