《半导体芯科技》杂志文章
Ansys公司最近与台积电和微软合作开发联合解决方案,该解决方案为分析2.5D/3D-IC多芯片系统中的机械应力提供了高容量云解决方案,使共同客户能够避免现场故障,并延长产品寿命和提高可靠性。Ansys公司产品营销总监Marc Swinnen(MS)与Silicon Semiconductor编辑Philip Alsop(PA)在这里就三方合作和该联合解决方案进行了讨论。
PA:Ansys一直与台积电和微软合作,专注于分析多芯片3D集成电路系统中的机械应力。显然,人们很希望了解这样的三方合作是如何开始的?
MS:我们与台积电的合作已经持续了几十年。这主要是基于Ansys销售和生产RedHawk-SC ™产品的事实,该产品是芯片设计人员用来验证其芯片电源完整性的电子设计自动化(EDA)软件工具。基本上,每个芯片上都有一个电源和接地网络。每个晶体管都必须连接到电源,并且必须接地,就像任何电子器件一样。如果您的芯片上有500亿个晶体管,这意味着你必须设计两个电网,每个网络有500亿个端点。因此,这些都是非常庞大和复杂的片上网络,对芯片的正常运行至关重要。它们需要检查,因为电源线上总是有电压降。如今,为了节省功率,电压非常低,以至于真的无法承受从封装引脚到实际晶体管的100毫伏电压损失。因此,必须非常仔细地分析所有内容,以确保电源完整性或电压降得到正确考虑,并符合您的规格。
这是一个非常大而棘手的问题。这就是 RedHawk-SC ™所做的工作。它为制造做了最后的签核,这是可行的。当然,这一切都严格取决于制造规则。我们与包括台积电在内的所有主要晶圆代工厂密切合作。台积电和Ansys有着长期的合作关系,致力于将这款黄金般的签核工具推向业界——世界上绝大多数芯片都使用Ansys Redhawk-SC 进行电源完整性认证。这是我们与台积电持续深入合作的基础。
这就把我们带到了正在讨论的话题。传统上,芯片或集成电路(IC)就是一块单个硅片——它们都是一回事。把它从晶圆上切下来,它是一小块硅片,嵌入到一个封装中。但现在,由于多种原因,不再可能仅用一个芯片构建今天想要的大型系统。因此,开始制造多个芯片,并将它们组合成一个我们称之为3D-IC的系统——在这个系统中,将多个芯片堆叠在一起,或者更常见的是,将它们紧挨着放置,我们称之为2.5D。我将所有这些配置称为3D-IC——所有这些不同的堆叠方式或将它们彼此相邻放置。3D-IC是指包含多个芯片,是指裸芯片,而不是封装好的芯片,它们彼此相邻放置。通常,它们被放置在另一个芯片(被称为中介层)的顶部,通过中介层将它们连接在一起。今天,所有高性能计算都在朝着这个方向发展。
现在,这些芯片中的一些变得很热,而另一些则变得不那么热,因此就有了不同的热膨胀。芯片通过微凸点相互连接。这些是非常微小的凸点——每平方毫米高达一千个——它们不能承受很大的剪切应力。如果装配体开始以不同的方式膨胀和收缩,并在这些热循环中循环往复,这个3D装配体会出现机械变形、翘曲和应力。对于芯片设计人员来说,这是一个全新的严重问题。我的意思是,总有人不得不在某个时候担心热膨胀。通常,系统或封装设计人员遵循这样的工作路径,先将芯片组装在电路板上,将电路板安装在系统中,再把系统安装在散热器中,之后,才会有人进行一些机械分析。但现在问题在芯片上就已经产生了,设计人员不得不从一开始就担心,系统会怎么变形和翘曲呢?如果使用错误的材料或使用错误的平面图,设计的可靠性将比正确完成的要低得多。因此,他们需要尽早进行机械模拟仿真,并预测热-机械行为。
Ansys在这一领域有着悠久的历史,除了半导体部门之外,我们还拥有许多其他仿真工具。我们有计算流体力学、有机械的、有安全的、有光学的、有电磁的——很多领域的仿真。机械仿真是我们的专业之一,我们处于行业领先地位。很自然地将这些算法应用于半导体问题上。
△RedHawk-SC Electrothermal™的热和翘曲结果展示,模拟的是中介层上组装了逻辑芯片和存储芯片的多芯片2.5D组件。
台积电与我们合作,解决了他们自身生产和设计方面遇到的一些问题。他们认为这是一个需要解决的问题。这是一个棘手的计算问题,因此他们引入了微软Azure,以提供在所需时间范围内真正解决这个问题所需的云计算功能。
借助微软的云计算、Ansys 的机械/热仿真以及台积电的制造能力,我们共同提出了一个行之有效的解决方案流程,并已被证明是有效的。
PA:我认为这个项目的目标是,为满足新颖的多物理场要求提供更大的信心,从而提高功能可靠性并延长先进3D制造设计的产品寿命,对吗?
MS :是的,这个项目有两个要点。一个是新颖性,另一个是可靠性。为什么说它是新颖的呢?机械仿真本身并不新鲜,但对于半导体设计人员来说,它确实足够新颖。正如我已经提到的,这是单片设计师永远不必担心的事情。但是,对于3D组装——我用3D作为代工厂提供的所有不同架构的统称——芯片堆垛芯片和芯片紧挨芯片——有很多方法可以安排这些芯片。我就把它们都称为3D-IC。
因此,对于芯片设计人员来说,这是新颖的,他们现在必须在布局规划阶段考虑:好吧,这些芯片中哪些会变热,哪些会保持较低温度?如果我把两个变热的芯片放在一起,那会不会是我无法解决的热问题?或者,特别是如果两个芯片在相同的活动模式下变热,例如在播放视频时的流媒体模式下,这两个芯片所在的这个角落都会变得非常热。这可能会从一开始就注定我的项目失败。
热是当今可实现集成密度的头号限制。可以非常轻松地将芯片堆叠到数层之多。您可以设计它,您可以制造它。这一切都不是问题。问题是您不能冷却它!它会变得太热,它会融化。因此,能使系统有多近和多紧凑的首要和最终的因素取决于功耗。该如何控制和管理散热呢?因此,当您组装这些大型系统时,将多个芯片组装在一起时——我们谈论的是多达十几个芯片——该如何管理电源额呢?
随着热量而来的是多种材料的热膨胀、温度循环和差分膨胀。单个芯片由同一种元素制成,即硅。现在突然之间,系统可能包括硅芯片以及碳化硅芯片和有机基板。单个芯片通常放置在称为中介层的互连基板上。中介层通常由硅制成,就像用旧工艺制成的巨型芯片,如35纳米或其他的制程。
但中介层也可以由有机树脂制成,也可以是玻璃。有些代工厂就在使用玻璃基板。因此,这种堆叠中有多种材料,它们都有不同的热膨胀系数。这种机械问题对当今大多数芯片设计人员来说都是新颖的。可能在他们公司某个地方拥有处理电子系统热问题的专业知识,但并不在芯片设计小组中。因此,他们可能不得不重新变更公司成立时的组织方式,以便机械专家从一开始就参与其中。所以这对他们来说很新颖。
Ansys正在利用多物理场仿真功能,并使其能够与半导体流程中的半导体数据格式配合使用。这就是我们认为的答案。我们有一个叫做RedHawk-SC Electrothermal ™的工具,可以整合这些。在可靠性方面,最根本的结果是热膨胀会随着时间的推移而降低芯片的性能。正如我所说,这些芯片是通过小焊料凸点连接的,当芯片压在一起时,这些焊料凸点会连接起来。
△3D-IC堆栈展示通过Ansys RedHawk-SC Electrothermal™模拟的翘曲和应力。颜色表示位移(在Z轴上放大以方便查看)。
它们相距约10微米,这为您提供了非常高密度的互连。但是,如果这些芯片开始弯曲、翘曲或扭曲,并且它们之间会产生剪切应力,那么这些微凸点很容易剪切、断裂或轻微变形,从而使它们的接触点变小。这意味着通过该凸点的功率密度或电流密度变得更高,它们熔化的可能性也更高。
我们最近做了一个3D-IC组装,系统中有40万个微凸点,您可以有数百万个微凸点。如果其中任何一个失败,则可能引发系统故障。您确实应该非常仔细地考虑多芯片系统在随着时间的推移而加热和冷却时是如何翘曲的。如果管理不当,这将给您带来可靠性问题。
芯片对于弯曲的耐受性有非常具体的规则。例如,一个芯片可能被允许以凹面方式弯曲到一定量——那就只有这么多。顺便说一句,不仅加热导致它弯曲,而且在组装过程中,当实际将这些芯片安装在彼此的顶部时,把芯片向下压,这也会使它们发生弯曲。因此,这也需要考虑在内。在一定程度上允许凹弯,但绝对不允许凸弯。显然,这方面的公差非常低。这些是出现的一些可靠性问题,需要进行权衡。
△基于Ansys RedHawkSC™电流分布分析的芯片上的温度梯度。
PA:如果我理解正确的话,问题是,这是一全新的过程,需要大量的学习。一旦他们理解了您所描述的一切是如何发生的,他们就会找到制作这些3D系统的最佳方法。在此之前,他们必须在所有不同的负载和条件下进行多次测试。如果他们每次都以完全相同的方式做事,他们会得到相同的结果吗?或者,即使在相同的条件下,是否存在变异,我们可以称之为随机变异?
MS:是的,这就是模拟的美妙之处。人们可能会说,好吧,我更喜欢在一个不能预测它将要做什么的真实系统上工作,但实际上您可以在测试台上进行测量。是的,现实测量是有好处的,但问题是您正在测量的现实只是一个特定的实例。您正在使用这组特定参数来测量此特定器件。举个例子,想象一下测量钢制螺栓之类的参数。钢螺栓有多坚固呢?钢材的批次各不相同。那会有一个范围。
您可以测试一个特定的螺栓,它可能是一个很坚固的螺栓,也可能是一个不那么坚固的螺栓,但它并没有告诉您,当要把成千上万的这些东西建造成一座桥时,可能性的范围是多少。同样,当您测试芯片或3D组件时,您可以将其放在测试台上进行测试,您正在测试的也是特定的器件。但是在厚度变化、材料特性变化方面有很多不同的参数。而且温度或热量也会由于使用而不同,对吧?如果芯片没有做任何事情,它就不会变热,只有当它真正处于使用状态时,它才会开始变热。
那么您打算给它什么样的使用呢?这是一个问题,因为有成千上万种可能的使用组合。模拟允许您在各种参数、各种条件、各种环境、外围条件下进行测试,并使用各种材料组合来完成所有这些工作,并验证系统是否能够在整个可能性范围内工作。这就是模拟的力量。这也是RedHawk-SC lectrothermal 允许您做到的。您可以识别问题,然后决定如何解决这些问题或如何预防它们。例如,您必须考虑的权衡之一是硅中介层。它比标准芯片大得多,我们说的是三英寸乘三英寸左右。这个中介层,如果您把它弄厚些,那么它就不会翘曲那么多。它会更硬,不会变形那么多,这很好,但这也意味着会导致更高的热应力。差分膨胀就会产生,但它不能弯曲,所以应力会非常高,但不会变形那么多。但是,如果使中介层薄很多,它就会变形得更厉害,但应力会更低。就像工程中的所有事情一样,这是一种权衡。
此外,硅中介层上还有钻孔,用以实现从一侧到另一侧的连接。这些孔称为硅通孔(TSV),通常是铜柱。它们很小,但相对于芯片尺寸来说,它们实际上相当大。尽管它们是用于连接信号线的电导体,但它们也可以很好地通过硅将热量散发出去。您可以通过不同的方式布置这些TSV,不仅针对电气功能,还可以针对热功能。这是另一种方法,您可以平衡热量以减少差分膨胀的量,从而减
少应力。获得最佳的TSV分布是优化设计的另一种方法。有很多角度可以看设计是否可以改进。
PA:正如您所描述的,主要的挑战是扩大计算要求高的应力模拟规模,但关键是同时要保持预测的准确性。这个挑战有多大?
MS:这些热模拟可以非常精确,并且依赖于网格划分。将设计分解为有限元网格,这意味着将整个图案分解为数百万个微小的三角形,这些小三角形对设计几何形状进行建模,并且可以作为一个小的局部问题进行分析。精细网格提供高精度,但需要很长时间才能求解。我们谈论的是数百个CPU上的数天到数周的计算,因此这可能会变得异常昂贵。
有两种方法可以满足这些模拟的巨大计算需求。一个是改进算法,这是Ansys的工作。我们有像自适应网格这样的东西,你可以检查网格是否真的需要在任何地方都那么精细。有些地方有很多热梯度,是的,我必须用精细的网格来建模来捕捉这些曲线。但是很多芯片,较冷的部分,它们的温度相当均匀。我不需要精细的网格来建模。我可以做一个更快、更粗糙的网格,并且仍然得到准确的结果。因此,有了自适应网格划分,在需要的地方它可以很精细,在不需要的地方它可以更粗糙,这确实降低了计算时间。这是算法的方面。
但另一方面,无论你做什么,这仍然是一个很大的棘手问题。因此,这就是我们引入微软和云提供商的原因,和他们说,我们需要定期为大型3D-IC预留出大量的计算时间。通常,这些系统在云端进行模拟和分析。可以是混合的本地云或外部云,也可以是完全在商业云上。但我们与微软等云供应商合作,确保Ansys产品在云上轻松运行,这些算法得到有效分布,同时也具有弹性等功能。如果其中一个CPU 出现故障怎么办?整个作业能否从一次故障中恢复,而不会因为一个CPU 出现故障而损失两天的模拟时间?另外,我们可以使用云现货市场吗?这比使用按需资源便宜得多。
要确保这一切在云中正常工作,有很多问题需要处理。这也是微软参与我们与台积电特别合作的原因。微软也生产自己的芯片,所以这是一种相互的关系。我们作为客户与他们合作,我们作为云供应商与他们合作。这一切都是协同工作的。所以是的,他们确保这些计算要求非常高的工作可以在八小时左右完成——如果你把几百或几千个CPU放在上面的话。我们在多达4000个CPU上为一个客户运行了RedHawk-SC,以获得详细、完整的系统模拟结果。
△Ansys RedHawk-SC Electrothermal™对封装基板上的芯片的3D热分析结果,具有逐个引脚的热分辨率。
PA:3D芯片作为一个相对较新的概念,需要一种新的制造工艺。因此,台积电需要了解您在3D 芯片设计和后续性能方面列出的大部分内容吗?
MS:是的,台积电专注于芯片制造,多芯片组装过去不是他们需要太多关注的事情,特别是因为他们不是系统设计人员,也不做电路板组装。他们只是关注单片的芯片。机械过去不是真正的问题。然而,现在他们已经开发了3D 架构和技术。台积电的声誉在于不仅确保他们的制造是精确的制造,而且为客户提供能够设计这些东西的流程。因此,他们关心的不仅仅是制造,而且还包括这是否是客户可以利用的流程吗?从这个意义上说,他们非常积极主动。他们致力于为客户开发这些参考流程,以便客户知道使用什么工具,以及如何使用它们来获得台积电已针对硅和实验室验证的良好结果。因此,对于台积电来说,机械模拟是一件令人关注的新事物。大多数客户设计团队仍然没有解决机械变形问题。只有最前沿的技术才能解决这个问题。
如果你看看今天谁采用了3D-IC,就会发现实际上是那些大型HPC提供商,是半导体设计界的高端供应商。Nvidia、AMD、Intel、IBM、ST,这些公司都有对体积和密度的系统要求,从而会去做全3D 封装。但是这种形式也已经开始更多地渗透到主流产品中了。由于构建3D-IC有很多选择,代工厂已经站出来说,好吧,我们将提出一些您可以使用的架构,这些架构由我们的制造部门提供支持,并且我们已经验证了这些架构可以可靠地工作。这是一件新事物。通常情况下,代工厂对于封装都是敬而远之。它是由不同的行业来完成的,这个行业称为OSAT(外包系统组装和测试,outsourced system assembly and test)。代工厂专注于制造芯片,然后拿出去进行封装。
对于3D,目前还弄不清楚芯片的终点和封装的起点,所以代工厂已经站出来说,好吧,我们已经提出了这些架构,你可以去他们的网站上找到这些。有多个体系架构具有用于验证它们的参考流程。因此,这就把代工厂拉进了类似于机械模拟这样的领域,因为这是他们的客户必须要做的,而且是他们的架构内的,采用的是他们的制造工艺。他们觉得有责任验证这一切是否有效。
PA:从你所描述的情况来看,你向他们提供的产品的重要性已经上升了几个档次,因为他们现在正在支撑这些架构,而不是像他们以前那样可能将一些问题转移到不同的方向吧?
MS:是的,确实如此。3D-IC 是一个新兴市场,而且仍在不断变化。就像我说的,有很多很多的架构,表明对于哪种方式是最好的方法,还没有达成共识。仍然有很多技术正在尝试中。当你看一个3D 芯片时,你可以从两个角度来看待它。你可以说这只是一个PCB,但有点像一个非常高密度的PCB。或者你可以从另一个角度看它,然后说不,它就像一个芯片,但只是更大、更扩展。而客户从两个方面都可以接近它。
有些具有更多的PCB背景,有些具有更多的芯片背景。是小PCB还是大芯片?它位于中间的某个地方,它把所有这些问题都归为成一个蜡球,这就是问题的症结所在。我所看到的是,虽然这两种方法都仍然被客户所使用,但代工厂已经加大了努力,我认为这正成为一个更面向硅的问题,我认为未来的3D设计将更像一个巨大的芯片。
这两种观点都有些问题:如果从芯片方面看,这些中介层及芯片之间的连接非常像PCB。他们有河流布线,有不是曼哈顿的再分布层。硅通孔非常大。芯片工具对所有这些PCB可变性都不会太合适。相反PCB工具则可以很好地处理所有这些。
问题是PCB工具无法处理这些系统的尺寸和容量。PCB工具习惯于运行几千个信号,但在中介层上,您可以拥有数百万个信号,而PCB工具则对处理这数百万个信号无能为力。因此,双方都有一些问题,必须提高自己的水平,从而在市场上出现了新的工具来处理这个问题。例如,Synopsys 有一款名为3DIC Compiler ™的产品,该产品源自他们的芯片工具,但专门用于3D-IC。
PA:就你们与台积电的合作而言,我相信你们的解决方案已经得到验证吧?
MS:台积电确实为他们的客户提供了参考流程。所以说,这是一个经过验证的流程,我们已经能够跑通了,我们知道这是有效的。但他们也有自己的幕后操作,他们设计自己的IP和一些芯片。这种特殊的合作更多地源于台积电自身的内部需求。更多的是他们自己的制作人员说,“嘿,我们认为这是一个问题”。他们与我们合作开发了这个流程,并发布了一份关于这一切如何运作的应用说明。这些可以在台积电设计门户网站上获得,供所有台积电客户访问。因此,它在很大程度上是一个实用的用户视角,而不仅仅是代工厂的参考流程。
声明:本网站部分文章转载自网络,转发仅为更大范围传播。 转载文章版权归原作者所有,如有异议,请联系我们修改或删除。
审核编辑 黄宇
-
芯片
+关注
关注
455文章
50732浏览量
423247 -
IC
+关注
关注
36文章
5945浏览量
175505 -
云计算
+关注
关注
39文章
7776浏览量
137362 -
应力
+关注
关注
0文章
19浏览量
9557
发布评论请先 登录
相关推荐
评论