在 2.5D 和 3D-IC 中,准确预测热完整性变得越来越困难,从而产生了一连串的问题,这些问题可能会影响从系统行为到现场可靠性的方方面面。
在过去的十年中,硅中介层技术已经从简单的互连发展成为异构集成的关键推动因素。如今的中介层可能包含数十个芯片或小芯片,具有数百万个连接,并且对性能、功耗和面积的要求不断提高。事实上,在面积大于 2,000 mm² 的中介层上看到异构集成设计的情况并不少见,系统功耗为 600 瓦,并且需要非常高的 I/O 带宽。有了这种能力,热完整性现在是一个首要问题,这使得高信心地按计划签字变得更加困难。
有许多工具可用于理解和模拟异质硅中介层设计中的热效应,但目前大多数工具都是互不关联的。这里的工作正在进行中,但这不是一个简单的解决方案。并不总是很清楚这些工具应该做什么,以及所有部分如何组合在一起。
“人们面临的普遍挑战是从这样一种想法开始的,‘让我们假设这些东西是小板子。我们将永远应用我们在板级和封装级应用的相同技术,我们只需缩小规模,它们就会起作用,“Synopsys 杰出架构师 Rob Aitken 说。“这是真的,但它有几个新的维度。首先,现在做这件事的人与过去不同。以前,封装和电路板工程师会这样做。现在,芯片人员也在研究它。
还有其他重大转变。“当我们进行这些 3D 装配时,重要的是要记住,我们正在跨越过去的领域,”Siemens Digital Industries Software 的 Calibre 接口和 EM/IR 产品管理高级总监 Joseph Davis 说。“曾经有芯片人会把芯片放在一个包装里。然后我们有系统级封装和 MCM 选项。其中很多界限已经模糊不清。那么谁拥有什么呢?有些包装人员正在做包装和系统仿真。对他们来说,整个芯片都有一个温度,所以分辨率是厘米大小的,用于观察电路板上或外壳内部的散热情况。然后是 IC 团队,他们现在不再只有一张 IC。有一堆IC粘在一起。这个 IC 团队以微米的分辨率来研究事物。他们需要知道整个事情的分布情况,等等。解决方案存在挑战。但实际上,物理和技术问题是这里最容易解决的部分。真正的问题是,每当你跨越组织边界时,你就会遇到一个真正的问题。我们现在将多个芯片组合在一起,有时来自不同的技术,有时来自不同的铸造厂。即使在单个晶圆代工厂内,每个芯片组都是独一无二的。没有一个过程可以将所有这些信息都导入到工具中。
图 1:使用中介层、凸块、微凸块和硅通孔的高级封装。来源:西门子
为了实现这一目标,各方之间必须进行沟通——芯片设计公司、EDA工具供应商、代工厂和封装公司。
“即使是一家铸造厂,我们也必须弄清楚所有需要进来的东西,并准备好所有的东西来完成工作,”戴维斯说。“然后是包装和系统人员,他们以毫米为单位思考。因此,有两个截然不同的用户群,每个用户群都有不同的分辨率。
并且有不同的间距和互连。“特别是对于硅中介层,你正在处理一种不同的材料,”Synopsys的Aitken说。“电路板或有机基板在材料上是相似的,因此人们过去在电路板中拥有的所有做法都是保持一切平衡并构建测试车辆来测试该系统的极限。如果这些都有效,那就太好了,但没有人能确定它们在多大程度上起作用。物理学就是物理学,但它会改变。如果你不小心,曾经是二阶效果的东西可能会变成一阶效果。了解它的工作方式和地点很重要,即使你谈论的是数学模型。
改变起点
一个典型的异构集成系统是一步一步建立起来的。
Ansys首席产品经理Lang Lin表示:“从系统的封装基板开始,我们实际上将中介层安装在其顶部,并连接数十万个凸块。“根据设计集成计划,设计人员会直接在中介层顶部添加几个芯片或小芯片。一些芯片通过微凸块或铜对铜连接连接,而其他一些芯片可以以 3D 方式进一步堆叠。由于这种集成,中介层的作用是可靠地连接数百万个这样的微凸块或铜对铜连接,以便整个系统能够在现场生存。
这通常被称为芯片封装系统。中介层是一个桥梁,包含所有这些组件的供电网络。“它还为所有芯片和芯片提供电源,并承载整个芯片和芯片,”Lin说。“但现在安装在顶部的小芯片消耗大量功率,这可能会导致电源完整性问题。在现场工作时,这些也会产生大量的热量,因此现在 IC 有可能由于热完整性问题而烧毁相邻的 IC。
简而言之,异构集成会导致电源和热完整性问题,甚至更多。
“如果你有具有高带宽内存的3D堆叠芯片,电源和热量问题也可能导致严重的信号完整性问题,”他说。“这意味着所有这些问题都在异构集成系统中汇集在一起。设计人员在确保成功供电、成功散热以及信号完整性不受影响方面发挥着重要作用。
对基于中介层的异构设计进行建模会引发有关模型完整性的问题,因为涉及的变量太多了。“你假设在某些条件下,例如,’一种材料相对于另一种材料的偏转是线性的。然后你会说,‘嗯,实际上,在其他一些条件下,它是二次的。但二次模型要复杂得多。哪一个是正确的选择?人们仍在试图弄清楚答案是什么,以及你需要关心多少。
这很大程度上是抽象级别的函数。Davis指出,所有这些热方面都可以通过非常粗略的建模和平均值来解决。“随着新技术的出现以及这些技术的混合,我们在系统中有很多非常好的绝缘体,”他说。“当我们转向finFET时,情况变得更糟。人们开始说,’供暖问题要严重得多。这是为什么呢?这是因为使用平面晶体管时,所有的热量都是在硅中产生的。块状硅是一种相当不错的热导体。它的导热系数约为150。使用鳍片,你把晶体管放在上面,它被二氧化硅隔离,这是一种非常好的绝缘体。在那里,导热系数为 1.4,因此为 100 倍。但是等一下。我刚刚把我的热晶体管包在玻璃枕头里?我该怎么处理这些热量?我必须有办法把它弄出来。这是通过 TSV 等完成的。此外,我们可以对这些东西进行建模。我们每天通过模拟和 EM/IR 对比热成像更复杂的事情进行建模。我们有能力,是的。但是,将所有数据放在一起是一个真正的问题。系统和系统分辨率不是电子产品,而是工业,是最大的问题。
艾特肯说,这有两个方面。“有一个方面是,‘我有一个系统,我有一堆方程,我将用于对系统进行建模,我有实现这些方程的工具。然后我得到输出。输入部分也非常重要,因为所有的骰子都不一样。所有材料可能略有不同。此外,工作负载是不同的,有时是未知的,所以你要处理的是我们一直在封装上考虑的散热问题,以及我们一直在芯片上考虑的散热问题,但现在它们都合并在一起,不能被视为独立的。这导致当你把这些东西放在一起时,你需要去做尽可能多的分析,但也需要监控你在构建它时发生了什么,以确保你的假设继续成立。所以你有一些东西说,’哦,我们在这里升温。这很糟糕。让我们放慢脚步。
了解热流至关重要。热量从物体较热的一端移动到较冷的一端,但并不总是一致的。“热传导的概念相当容易理解,”Ansys的Lin说,“如果你从工程101中了解欧姆定律,你就知道你可以为系统的热传导路径模拟具有等效热阻的物体。给定一个特定的功率耗散值作为该系统的散热器,你可以很容易地求解传导路径两端之间的温差。傅立叶热传导定律描述了系统如何散热,以及散热器如何影响整个系统的温差。
通过硅中介层映射傅里叶定律更为复杂。“假设一个小芯片中有两个热源,”Lin说。“小芯片消耗了这个硅系统的功率,而中介层安装在封装的顶部。系统中总共可能有四个不同的组件或对象。我们可以对四个分量的热阻进行建模。鉴于两种小芯片正在加热系统,我们有两个Q(热流)源,它们将热量注入热传导路径。
解决这个问题可以帮助设计人员了解系统各组件之间的温差,进而更好地了解温度分布。但Lin说,这个模型不够准确,因为每个组件只有一个等效的热阻。“热阻实际上很大程度上取决于整个物体的材料特性。有限元分析方法可用于以数学方式表示具有自身材料属性的物理组件或系统,以及所有表面的边界条件。网格划分技术用于将此 IC 布局几何形状或对象转换为可识别的元素。可以使用两种不同的网格方法对整个IC布局进行建模,并且使用所有网格单元,我们可以以3D方式求解系统所有单元之间的传热规律。
这也有助于解决温度分布问题,这是一个更准确的热模型的现实问题。
在谈到这种网格划分如何影响求解热传导的准确性时,Lin表示,网格划分技术需要不断改进,这是具有挑战性的,因为从旧的SoC技术到最新的2.5D或3D-IC技术,系统已经变得更大。这些复杂的系统中包含数以万计的热源。因此,网格划分分辨率必须从厘米提高到微米,甚至可能达到纳米。“我们需要一个更精细的解决方案,精确到集成芯片的子模块级别,以便我们可以准确地模拟热传导路径。这是非常具有挑战性的,但它是解决这种系统的热节流问题并确保没有可靠性或热完整性问题的必要条件。
这使得整个分而治之的方法变得更加困难。Siemens Digital Industries Software 产品管理总监 John Ferguson 指出,从历史上看,热能是用电网方法完成的。“你把事情分成小方块,然后你能走多少取决于你拥有的硬件,你有多少内存,以及你愿意等待多长时间才能得到答案。这些是你要挣扎的事情。但这种电网还有另一个挑战,因为热本身就是一个问题。重要的是,你要检查一下,看看你是否确实有一个散热问题,除了重新设计之外,无法通过任何其他方式解决。
热也会影响机械应力和电迁移/红外压降。“现在你遇到这种情况,你必须确保你使用的网格可以在这些不同的东西上以某种方式对齐,”弗格森说。“如果你要尝试把它们加起来,你可以让一个窗口与另一个窗口重叠一半。你是怎么弄清楚这些东西的?这令人困惑。这仍然是一个很大的挑战。该行业正在努力摆脱网格窗口方法,做一些更全面的事情,这意味着更多地从方程方法看待它,并从真正的物理学角度思考问题。例如,温度在哪里下降?正是由于这些原因,整个电网情况是该行业的一个挑战。我如何知道要选择的正确分辨率?它足够准确吗?它会与我需要的所有其他内容集成吗?摆脱这种做法是重要的一步。
进化变化
在这个领域,解决方案最终会是什么样子还有待观察。艾特肯指出,今天将进行广泛的实验,并相信在某个时候,该行业将开始合并。Ferguson说:“即使看一下软件包选项,过去也有相当少的软件包,而这些软件包的特点是封装供应商。“所以你知道如果你把你的设计放在那里会发生什么。但现在有许多不同的封装设计,即使你只限于硅中介层。人们用它们做了很多事情,也有很多方法可以把它们放在一起。关于哪一个更好,并没有真正达成任何共识。这意味着,如果您是制造商,现在您不仅要为每个客户,而且可能为每个设计提供定制服务。这又是在寻找,“让我们尽可能地尝试过度设计,这样我们才能认为我们是安全的。但与此同时,要小心。
随着其他材料的引入,将添加新问题。“你可以加入一些新材料,设计这些东西的人没有很长的历史,”他说。“根据你去的地方,你可以在文献中找到一些关于其导热性和抗拉强度的细节。但是,谁在进行测量以真正将这些东西拨入其中呢?他们改变了。你会得到一批氧化物,而下一批则有点不同。至少对于热,我们将进行无网格分析。但是我们仍然有一个问题,那就是需要将其覆盖在网格上,以便我将尝试传递这些数据的另一件事,它需要在上游、下游以各种方式使用。归根结底,有了这一切,我们行业一直以来的运作方式就是我们保护它。我们说,‘他们说这个东西对10%有好处。让我们给一个 20% 的窗口来保证自己的安全。但这意味着你总是会把一些东西留在桌面上。
此外,早期做出决定也是一个挑战。
“我们向架构询问可以组合在一起的问题,”西门子的戴维斯说。“我有足够大的包裹吗?我有足够大的散热器吗?我们行业一直以来的处理方式是预算和近似模型,因此,当您在设计系统中处于更高或更早的位置时,您就有了模型。有时,模型只是一个近似值,“我认为这个芯片会产生这个温度,因此它会像这样导电。但现在我们看到客户问,’我建造了这个零件。我把它放在这个包里。新版本将有一些额外的驱动程序,我希望它们会产生大量的热量。我的包裹够用吗?在我开始影响可靠性之前,我的散热是否足够?在你遇到其他问题之前,必须回答这个问题。电迁移是温度的函数,因此,如果温度(指数函数)比您预期的高 10 度,它可能会使您的寿命缩短 5 年。工程团队希望更早地做到这一点,但他们没有关于他们将使用的技术的信息,只能说,‘我们正在考虑这个问题’。
结论
可以肯定的是,如果设计师意识到所有这些挑战,他们现在可以使用一些技术。但是,复杂的异构设计中有很多元素,这对设计团队来说是一个更大的挑战。
“他们可以从设备层面应用几种不同的解决方案,”Lin说,“他们可以降低功耗,平衡功率密度,并可能巧妙地分配芯片和小芯片,使热传导路径保持良好平衡,而不会引起任何高温。在系统层面,我们看到很多冷却解决方案说,“如果温度太高,让我们限制系统,让它不工作,让它休眠。我们还可以做一些像热管理、电液体冷却和强制对流这样的事情。所有这些我们已经在系统生产中看到了。
审核编辑:黄飞
评论
查看更多