反思 GTC 和 OFC 2024：没有一刀切的方法，但上市时间是关键！-电子发烧友网

在GTC 2024期间，英伟达宣布了最新的Blackwell B200张量核心GPU，旨在为万亿参数的AI大型语言模型提供支持。Blackwell B200需要先进的800Gbps网络，完全符合在AI工作负载的AI网络报告中概述的预测。随着人工智能工作负载的流量预计每两年增长10倍，这些人工智能工作负载预计将超过传统前端网络至少两个速度升级周期。

虽然在OFC上讨论了许多关于跨数据中心应用的主题和创新解决方案，以及在同一领域内扩展加速器数量的计算互连，但本篇文章将主要关注数据中心内的应用。具体来说，它将专注于扩展连接大型人工智能集群中各种加速节点所需的网络，并使用1000个加速器。这个网络在业界通常被称为“人工智能后端网络”(还提到；由一些供应商提供；作为东西向流量的网络)。以下是展会上探讨的一些主题和解决方案:

1)线性驱动可插拔光学vs线性接收光学vs共封装光学

可插拔光学器件预计将在系统级的功耗中占越来越大的比例。随着云服务提供商构建以高速光学扩散为特征的下一代人工智能网络，这个问题将进一步放大。

在OFC 2023上，线性驱动可插拔光学(LPOs)的引入通过去除DSP来实现显著的成本和功耗节约，引发了一系列的测试活动。快进到OFC 2024，我们见证了近20场演示。活动期间的对话显示了全行业对集成到最新51.2Tbps网络交换芯片中的高质量100G SerDes的热情，许多人渴望利用这一进步，能够从光可插拔模块中去除DSP。

然而，尽管令人兴奋，但超大规模企业的犹豫表明，LPOs可能还没有做好大规模采用的准备。采访强调，超大规模企业不愿承担LPOs的资格认证和潜在失败的责任。相反，他们更倾向于让转换供应商来承担这些责任。

在此期间，预计51.2Tbps网络芯片的早期部署将继续利用可插拔光学，至少到明年年中。然而，如果LPOs 能够展示大规模的安全部署，同时为超大规模企业提供显著的功耗节省——使他们能够在每个机架上部署更多的加速器——那么采用LPOs 的诱惑可能是不可抗拒的。最终，决定取决于LPOs 能否兑现这些承诺。

此外，半定时线性光学(HALO)，也被称为线性接收光学(LROs)在展会上进行了讨论。LRO仅在发送端集成DSP芯片(而不是在LPOs的情况下完全移除它)。虽然LPOs在100G-PAM4 SerDes下可能是可行的，但在200G-PAM4 SerDes下可能变得具有挑战性，这时可能需要LROs。

与此同时，协同封装光学(CPOs)仍处于开发阶段，Broadcom等大型行业参与者正在展示该技术的持续发展和进步。虽然我们相信目前的LPO和LRO解决方案肯定会像CPOs一样有更快的上市时间，但后者最终可能在未来的某个时候成为能够实现更高速度的唯一解决方案。

在结束本节之前，请不要忘记，在可能的情况下，铜将是比上面讨论的所有光连接选项更好的选择。简而言之，尽可能使用铜，必要时使用光学。有趣的是，液体冷却可以促进机架内加速器的致密化，从而增加铜的使用，以连接同一机架内的各种加速器节点。最近在GTC上发布的NVIDIA GB200 NVL72完美地说明了这一趋势。

2)光电路开关

OFC 2024带来了一些有趣的光学电路开关(OCS)相关公告。OCS可以带来许多好处，包括高带宽和低网络延迟，以及显著的资本支出节省。这是因为OCS开关可以显著减少网络中所需的电气开关数量，从而消除了与电气开关相关的昂贵的光-电-光转换。此外，与电气开关不同，OCS开关与速度无关，当服务器采用下一代光收发器时，不需要升级。

然而，OCS是一项新技术，到目前为止，只有经过多年开发的谷歌能够在其数据中心网络中大规模部署OCS。此外，OCS交换机可能需要改变光纤的安装底座。因此，我们仍在观察，除了谷歌之外，是否有其他云服务提供商计划效仿，在网络中采用OCS交换机。

3) 3.2 Tbps的路径

在OFC 2023上，推出了许多基于200G / lambda的1.6Tbps光学元件和收发器。在OFC 2024上，我们见证了这种1.6 Tbps光学器件的进一步技术演示。虽然我们预计到2025/2026年才能实现1.6Tbps的批量出货量，但业界已经开始努力探索实现3.2 Tbps的各种途径和选择。

考虑到从100G-PAM4电子通道速度过渡到200G-PAM4所遇到的复杂性，最初的3.2 Tbps解决方案可能在OSFP-XD外形因素中使用16条200G-PAM4通道，而不是8条400G-PAMx通道。值得注意的是，OSFP-XD最初是在两年前的OFC 2022上进行探索和演示的，由于人工智能集群部署的紧迫性，它可能会重新投入使用。与1.6Tbps相比，OSFP-XD外形尺寸的3.2Tbps解决方案提供了更高的面板密度和成本节约。最终，业界有望找到一种基于8通道400G-PAMx SerDes实现3.2 Tbps的方法，尽管可能需要一些时间才能实现这一目标。

总之，OFC 2024展示了许多潜在的解决方案，旨在解决共同的挑战:成本、功率和速度。我们预计不同的超大规模厂商将做出不同的选择，从而导致市场多样化。然而，关键的考虑因素之一是上市时间。值得注意的是，AI后端网络的更新周期通常在18到24个月左右，与用于连接通用服务器的传统前端网络的5到6年相比，这要短得多。

原文转自：Reflecting on GTC and OFC 2024: No One-Size-Fits-All but Time to Market is Key! - Dell'Oro Group

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据中心

数据中心

+关注

关注
16

文章
4906

浏览量
72502
AI

AI

+关注

关注
87

文章
32007

浏览量
270842
OF

OF

+关注

关注
0

文章
8

浏览量
10729
光纤模块

光纤模块

+关注

关注
0

文章
20

浏览量
3799
gtc

gtc

+关注

关注
0

文章
73

浏览量
4464

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

反思 GTC 和 OFC 2024：没有一刀切的方法，但上市时间是关键！

评论

电梯按需维保：个性化定制的电梯维护方案

ADS1259的OFC和FSC寄存器是怎么设置？

铣削加工如何正确选择走刀方式

复旦提出大模型推理新思路：Two-Player架构打破自我反思瓶颈

从“一刀切”到“按需维保”：电梯维保模式的革新

深圳恒兴隆｜自动换刀电主轴：实现加工自动化与高效化的关键.

MACOM在OFC 2024上展示其线性驱动每通道100G的组件

MACOM于近日举行的OFC 2024上现场演示其每通道200G的产品

度亘核芯精彩亮相2024美国光纤通讯展览会及研讨会（OFC）

2024年小米汽车产业链分析及新品上市全景洞察报告

宁畅服务器亮相GTC 2024，开启AI新纪元

中航光电即将参加2024美国光通讯展（OFC）

赛勒科技新型高性能800G硅光引擎即将亮相OFC 2024

英伟达2024年GTC人工智能大会看点，黄仁勋发布最炸裂的B200 GPU，讲述人工智能奇迹

英伟达H200上市时间