利用Multi-Die设计的AI数据中心芯片对40G UCIe IP的需求-电子发烧友网

越来越多的日常设备开始部署生成式人工智能，市场对大语言模型和出色算力的需求也随之日益增长。Yole Group在2024年OCP区域峰会的演讲过程中表示：“对于训练参数达到1750亿的GPT-3，我们估计需要6000到8000个A100 GPU历时长达一个月才能完成训练任务。”不断提高的HPC和AI计算性能要求正在推动Multi-Die设计的部署，将多个异构或同构裸片集成到一个标准或高级封装中。为了快速可靠地处理AI工作负载，Multi-Die设计中的Die-to-Die接口必须兼具稳健、低延迟和高带宽特性，最后一点尤为关键。本文概述了利用Multi-Die设计的AI数据中心芯片对40G UCIe IP的需求。

高带宽Die-to-Die接口用例

AI应用正在给半导体行业带来新的挑战。为支持深度学习和机器学习算法的海量数据处理任务，对更大带宽的需求不断增加，特别是对于计算和网络应用。这些AI应用对于Die-to-Die接口提出了不同的要求。本文以100Tb网络交换机和AI加速器为例。

图1为100Tb交换机示例，该交换机可用于AI数据中心，采用横向扩展方法来处理跨数据中心的海量数据。横向扩展方法在机器协同工作的网络中将工作负载分配到多台服务器上。交换机SoC不断扩展，正在接近尺寸极限，因此它被分割成更小的裸片，以提高边缘使用率。在这种情况下，Die-to-Die接口通过高速以太网在裸片之间以及向外界传输大量数据，反之亦然。

▲图1 100Tb交换机的裸片分割用例片

类似Google张量处理单元这样的AI加速器采用Multi-Die设计，为PCIe和以太网等接口配备单独的计算裸片和IO裸片。此类AI处理器在更主流的技术工艺上使用IO裸片来节省成本，并在更先进的技术工艺上使用计算裸片来提高性能和能效，从而充分发挥Multi-Die设计的优势。一些AI加速器使用图3所示的裸片分割方法，需要高带宽Die-to-Die接口来无缝传输裸片之间的数据。

▲图2 使用AI加速器的裸片分割用例

另一个示例是裸片连接用例，其中主服务器裸片或处理器连接到AI加速器裸片，以便执行可分流到特定功能加速器的任务。在这种用例中，Die-to-Die接口用于在需要时将数据从服务器裸片发送到加速器裸片，而无需在高带宽下运行。此类用例使用标准封装技术（如有机衬底），复杂性较低。许多边缘AI和移动应用都使用此类用例。

▲图3 裸片连接用例

利用40G UCIe IP为Die-to-Die连接提供最大带宽

UCIe规范已成为Die-to-Die连接的事实标准，确保裸片之间的互操作性、低延迟和实时数据传输。得益于UCIe，100Tb交换机和AI加速器等使用Multi-Die设计技术在标准封装和高级封装下实现了带宽效率更高。作为通用芯粒互联产业联盟（UCIe Consortium）的成员，新思科技在其当前经验证的UCIe IP基础上，推出了40G UCIe IP解决方案，可提供比UCIe规范高25%的带宽，而不会影响能效或面积。

40G UCIe PHY符合新的UCIe规范，实现了各种功能，可确保Die-to-Die链路可靠性和质量。PHY具有全面的可测性设计（DFT）功能，可用于已知良好裸片和生产测试，从而提高了可测试性。嵌入式信号完整性监视器（SIMs）可监测Die-to-Die链路的任务模式。监视器可以持续分析Die-to-Die信号质量，并在任务模式下执行校正措施，以实现可靠的通信。

PHY在2GHz频率下支持高达128B的接口宽度，可以利用整个PHY的带宽。对于必须以较低时钟频率运行的系统，它还在1GHz频率下支持更宽的256B接口。40G UCIe控制器支持不同的接口选项，例如流式传输、CXS、AXI，以及PCIe、CXL、AXI和CHI C2C等协议，以在Die-to-Die链路上运行标准化数据。

虽然更高的数据速率有助于AI应用实现高带宽效率并满足数据处理要求，但也带来了设计挑战。开发者必须精心设计通道规格，避免更高的插入损耗和串扰，以实现更优性能。速度较低时，可能不需要对发射器（TX）进行均衡处理。但在速度较高时，为了达到所需的信道性能，就需要进行TX均衡，比如使用2抽头前馈均衡（FFE）。此外还需要采用更强大的接收器（RX）均衡技术，例如1抽头决策反馈均衡（DFE）及连续时间线性均衡（CTLE）。Die-to-Die通道需经过大量的信号完整性和电源完整性仿真，以验证Die-to-Die链路特性和性能是否符合预期。

▲图4 16G奈奎斯特频率下的有损信道示例

▲图5 良好渠道设计示例

40G UCIe PHY支持新兴的先进封装技术，例如硅或RDL中介层、硅桥和RDL扇出，以及传统的有机衬底封装技术。PHY为先进封装技术提供高达12 Tbps/mm的总带宽效率，为标准封装技术提供高达1.8 Tbps/mm的总带宽效率，同时运行速度高达40Gbps/pin。有机衬底封装技术虽然更为常见且比较实惠，但需要更多的布线层来支持IP实现更高速的布线。相反，先进封装技术可以改善布线密度，但也增加了封装设计所面临的挑战。了解到这种复杂性，新思科技提供了用于中介层设计的3DIC Compiler平台及UCIe-A IP参考设计。3DIC Compiler是统一的探索到签核解决方案，其中包含用于自动布线和自定义中介层设计的工具和脚本。

40G UCIe IP实现了前向时钟架构，以简化接收器架构，从而降低功耗和延迟。其中使用了四倍速率架构，对于32 Gbps/pin速度，PHY操作频率限制为8 GHz；对于40 Gbps/pin速度，PHY操作频率限制为10 GHz。此外还借助嵌入式低延迟FIFO来补偿前向时钟和本地时钟之间以及不同通道之间的偏差不匹配。通用的100MHz参考时钟用作PHY锁相环（PLL）的输入，可生成PHY和控制器所需的所有高频时钟，这样逻辑电路就无需向PHY提供高频时钟。图6为40G UCIe PHY架构。

▲图6 UCIe PHY架构

UCIe未来的发展道路

3D封装具有功耗和性能优势，正逐渐成为快速Multi-Die设计的优选解决方案。

UCIe规范2.0正在促使3D封装中的Die-to-Die连接实现标准化，与2D和2.5D技术相比，其带宽更高且功耗更低。UCIe规范为3D封装定义了以下特性：

简约的PHY架构，例如简单的逆变器/驱动器

适合凸块区域的电路和逻辑，这有助于实现较低的工作频率和更简单的电路

较小的凸块间距，例如几微米

预定义的Bump-PHY的Bump图，可简化互操作性

新思科技利用3DIO IP解决方案实现了3D封装中的Die-to-Die连接。

3D封装技术正蓬勃发展，未来几年对更高数据速率的需求可能会越来越大。Die-to-Die接口也将持续演进，以支持更高的速度和能效。

业界首款40G UCIe IP解决方案，包括控制器、PHY和验证IP，提供更高算力，可满足速度更高的基于UCIe的Multi-Die设计需求。PHY的简化架构简化了IP集成，全面的监控、测试和修复功能则改善了可靠性和芯片的健康状况。新思科技走在技术发展的前沿，并将继续部署先进的IP来适应千变万化的市场需求。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据中心

数据中心

+关注

关注
16

文章
4810

浏览量
72212
新思科技

新思科技

+关注

关注
5

文章
800

浏览量
50362
AI芯片

AI芯片

+关注

关注
17

文章
1893

浏览量
35099
UCIe

UCIe

+关注

关注
0

文章
47

浏览量
1635

原文标题：当 AI 芯片遇上带宽瓶颈，看40G UCIe IP 如何打破僵局？

文章出处：【微信号：Synopsys_CN，微信公众号：新思科技】欢迎添加关注！文章转载请注明出处。

Maxim 40G传输解决方案有效降低功耗、提高数据吞吐率

键问题。　　Maxim近日推出40G发射器芯片组，将数据中心的数据吞吐量提高4倍，且保持极低的设备功耗，该方案所占空间仅略高于传统的单通道。这款最新的4通道

发表于 12-12 16:36

请问光学模块如何进化以满足数据中心需求？

转型：现在大多数大型数据中心通常利用10G接入端口访问40g交换网络。然而， 25g接入端口和100G

发表于 05-23 16:20

40G光模块选购指南

QSFP+光模块支持4个10Gbps通道同时传输，提供40Gbps的传输速率，可以用在数据中心、高性能计算网络、企业核心网络等应用。40G QSFP+光模块符合SCSI、40G以太网

发表于 10-23 15:46

40G数据中心之铜缆布线

　　40G数据中心铜缆布线依然是主流，从前光纤价格过高，因此未能广泛普及。而随着科技的不断进步，大众对带宽需求也不断增长，光纤价格下降并趋于稳定，因此在数据中心综合布线中开始被广泛采用

发表于 11-18 15:00

为什么25G比40G更适合数据中心市场？

40G和100G已然存在，但为什么还要使用25G？为什么25G比40G更适合数据中心市场？

发表于 05-19 06:59

2023是否会成为Multi-Die的腾飞之年？

今年似乎每个人都在讨论Multi-Die（集成多个异构小芯片）系统。随着计算需求激增和摩尔定律放缓，这种将多个异构晶粒或小芯片集成到同一封装系统中的方式，能够为实现苛刻PPA、控制成本

发表于 02-09 08:55 •757次阅读

芯片革命：Multi-Die系统引领电子设计进阶之路

是什么推动了Multi-Die系统的发展？由于AI、超大规模数据中心、自动驾驶汽车等应用的高速发展，单片片上系统（SoC）已经不足以满足人们对芯片的

发表于 03-27 22:50 •1339次阅读

态路小课堂丨为40G数据中心综合布线产品选择方案！

点击蓝字 | 关注我们TARLUZ态路 40G QSFP+光模块、40G QSFP+ DAC和40G QSFP+ AOC都可以应用于40G以太网。如何为

发表于 04-18 09:58 •888次阅读

Multi-Die系统设计里程碑：UCIe PHY IP在台积公司N3E工艺上成功流片

Express （UCIe） PHY IP流片。UCIe IP是Multi-Die系统的一个关键组成部分，它使开发者能够在封装中实现安全和

发表于 05-25 06:05 •855次阅读

设计更简单，运行更稳健，UCIe标准如何“拿捏”Multi-Die系统？

如今，从数据中心到边缘层，再到万物智能网络的深处，先进的Multi-Die系统实现了前所未有的性能水平。Multi-Die系统不是通用的单体架构芯片，而是由一系列异构

发表于 07-14 17:45 •1130次阅读

如何成功实现Multi-Die系统的方法学和技术

Multi-Die系统的基础构建，亦是如此，全部都需要细致入微的架构规划。对于复杂的Multi-Die系统而言，从最初就将架构设计得尽可能正确尤为关键。 Multi-Die系统的出现，是为了应对设计规模增加和系统复杂性给摩尔定

发表于 09-22 11:07 •745次阅读

Multi-Die系统验证很难吗？Multi-Die系统验证的三大挑战

在当今时代，摩尔定律带来的收益正在不断放缓，而Multi-Die系统提供了一种途径，通过在单个封装中集成多个异构裸片（小芯片），能够为计算密集型应用降低功耗并提高性能。

发表于 12-12 17:19 •1316次阅读

如何轻松搞定高性能Multi-Die系统？

2D芯片设计中通常为二阶或三阶的效应，在Multi-Die系统中升级为主要效应。

发表于 12-19 17:24 •661次阅读

新思科技发布全球领先的40G UCIe IP，助力多芯片系统设计全面提速

新思科技40G UCIe IP 全面解决方案为高性能人工智能数据中心芯片中的芯片到

发表于 09-10 13:45 •422次阅读

新思科技发布40G UCIe IP，加速多芯片系统设计

新思科技近日宣布了一项重大技术突破，正式推出全球领先的40G UCIe（Universal Chiplet Interconnect Express）IP全面解决方案。这一创新成果以每引脚高达

发表于 09-11 17:18 •628次阅读

搜索历史

利用Multi-Die设计的AI数据中心芯片对40G UCIe IP的需求

评论

Maxim 40G传输解决方案有效降低功耗、提高数据吞吐率

请问光学模块如何进化以满足数据中心需求？

40G光模块选购指南

40G数据中心之铜缆布线

为什么25G比40G更适合数据中心市场？

2023是否会成为Multi-Die的腾飞之年？

芯片革命：Multi-Die系统引领电子设计进阶之路

态路小课堂丨为40G数据中心综合布线产品选择方案！

Multi-Die系统设计里程碑：UCIe PHY IP在台积公司N3E工艺上成功流片

设计更简单，运行更稳健，UCIe标准如何“拿捏”Multi-Die系统？

如何成功实现Multi-Die系统的方法学和技术

Multi-Die系统验证很难吗？Multi-Die系统验证的三大挑战

如何轻松搞定高性能Multi-Die系统？

新思科技发布全球领先的40G UCIe IP，助力多芯片系统设计全面提速

新思科技发布40G UCIe IP，加速多芯片系统设计