以太网or非以太网？各家AI/ML网络技术盘点

　2023年7月，由 Linux 基金会及其联合开发基金会倡议主办的超以太网联盟（Ultra Ethernet Consor tium，UEC）宣布正式成立，给暗流涌动的AI 网络互联生态圈投入了一枚深水炸弹。 2023年8月，在IEEE Hot Interconnects（简称HOTI，关注先进的硬件和软件架构、各种互连网络实现）国际论坛上，来自英特尔、英伟达、AMD等公司的代表就“EtherNET 还是EtherNOT ”的问题展开了小组讨论，各家纷纷阐述了对以太网的想法。当前，新兴的AI/ML工作负载正推动对高性能网络互联的需求。大约十年前，基于融合以太网的 RDMA （RoCE）将低延迟的数据传输引入了以太网架构，但与其他网络技术相比，以太网似乎在技术发展上略显滞后。EtherNET 与 EtherNOT 的较量又来了？以太网时代，云厂商、设备商等各方有肉的吃肉、有汤的喝汤，又到了关键抉择期，各家又将如何选择呢？

　　01EtherNET 还是 EtherNOT？

　　其实早在2005年的HOTI会议上，“EtherNET 还是 EtherNOT”这个话题已经被讨论了，当时得出的结论如下：如今来看，当时的“预言”果真应验了。

　　在2023 HOTI会议的圆桌讨论中（视频链接：https://www.youtube.com/watch？v=yAjP1idJvB8 ），英特尔高级研究员、网络和边缘组首席硬件架构师Brad Burres和AMD数据中心 GPU 系统架构师Frank Helms偏向于EtherNET。Brad Burres认为无论采用何种技术，都需要一个开放的生态系统来降低整个行业的成本，并实现所需的软件基础设施。而随着协议的成熟，除非另一个开放的标准结构立即出现（例如CXL？），否则以太网将成为赢家。Frank Helms则列举了全球超级计算机TOP500榜单中第一名Frontier、第二名Aurora和第五名LUMI，它们都基于以太网的HPE Cray Slingshot-11网络结构进行连接。他认为以太网处于互联技术的前沿。UEC（超以太网联盟）的出现，也正反映了对于大型AI训练集群互连来说，以太网有很多被压抑的需求。

　　NVIDIA网络研究总监Larry Dennison认为以太网离满足AI工作负载的需求还存在着一定的差距。如果以太网满足了所有的这些需求，它还是以太网吗？在多长的时间能实现？以太网的市场确实很大，它不会消失，但在未来几年，以太网的发展速度将无法满足这个市场的需求。苏黎世联邦理工学院教授、微软大规模人工智能和网络领域的顾问Torsten Hoefler指出以太网是数据中心和超级计算机的现在和未来，但不是我们现在所说的以太网，以太网需要进化。

　　01开放生态or供应商锁定？

　　从历史上看，InfiniBand 和以太网一直在争夺AI/ HPC 市场的主导地位，它们都是开放标准。然而，一个关键的区别是，目前InfiniBand 仅由 Nvidia 作为单一供应商提供支持，而以太网则享有多供应商的支持，从而培育了一个充满活力和竞争的生态系统。但是，在人工智能和高性能计算网络解决方案领域，即使是以太网解决方案也带有“部分定制”的标签，有可能导致供应商锁定。

　　例如，博通的 Jericho3 以太网交换机在其高性能“fully scheduled fabric”模式下运行时，要求整个网络fabric使用相同的交换机芯片。

　　思科的 Silicon One 交换机和 Nvidia 的 Spectrum-X 交换机也出现了类似的情况——高性能要求可能会造成供应商锁定。

　　一些超大规模企业设计了“定制”NIC，这也可以导致定制网络。因此，即使在选择以太网解决方案时，也可能会遇到自定义实现和供应商锁定的情况。

　　AI/HPC 网络可能会向一个新的、开放的、功能更强大的传输标准过渡，部分或完全取代 ROCEv2 RDMA 协议，这是超以太网联盟正在追求的愿景。

　　02各家AI/ML 网络技术盘点

　　那么，超大规模厂商如何选择它们的 AI/ML 网络技术的呢？是EtherNET 还是 EtherNOT？以下是对各厂商AI网络方案简单的整理，很多厂商的选择并不是非A即B，平衡和利益是最终追求，不着急选边站也许才是最好的选择。

　　＞亚马逊AWS

　　亚马逊从 InfiniBand RD 协议中汲取灵感，推出了适用于 HPC 网络的可扩展可靠数据报（SRD）传输协议。亚马逊“独家”采用增强型网络适配器（ENA），该适配器基于其专有的 Nitro 芯片构建。 SRD 利用 UDP，支持跨多个链路的packet spraying，并消除了“按顺序”数据包传送要求，以减少fabric拥塞和尾部延迟。必要时，数据包的重新排序由 SRD 的上层管理。亚马逊继续追求本土的AI/HPC网络战略，并且可能是与 Nvidia 合作最少的公司。

　　相关链接：AWS re:Invent：SRD协议将取代TCP？

　　＞谷歌

　　谷歌将自己的 TPU 和 Nvidia 的 GPU混合使用。TPU 和 GPU 相互竞争，并且可能根据工作负载适用性进行部署。谷歌很可能没有在其网络中使用 InfiniBand 产品。谷歌 AI/ML 网络是相对定制的，并且多年来一直在部署类似 NVLink 的“coherent”架构。谷歌在网络堆栈上进行了大量创新，并在其常规数据中心和人工智能数据中心部署了“本土”光交换系统（OCS）——一种基于微机电系统（MEM镜像）的电路交换机。光交换机通常消除了一层物理交换机，支持更高的基数配置，并降低功耗和延迟。光交换机“反射”光，并且与网络协议和网络交换机升级无关。缺点是镜像重新配置时间通常较长，在几十毫秒范围内，因此这些 OCS 交换机作为固定容量“circuit”线路工作。对于人工智能训练网络来说，这不是一个主要问题，因为流量模式是可预测的。

　　＞微软

　　微软是超大规模企业中最务实的，它很早就采用了 InfiniBand 为其合作伙伴 OpenAI 构建人工智能网络。虽然微软为 Azure 云开发了自己的定制网络适配器并使用定制的 RDMA 协议，但它对 InfiniBand 的开放性、对 Nvidia 全栈 AI/ML 解决方案的拥抱，以及与 OpenAI 的紧密合作，所有这些都使其成为Nvidia的首选客户！微软收购了 Fungible，该公司发明了 True Fabric——一种基于 UDP 的可靠数据报协议，可处理流量、拥塞和错误控制，并优化尾部延迟。一些 Fungible 技术创新可能会出现在未来的微软的产品和开源贡献中。

　　相关链接：1.9 亿美元，Fungible难逃卖身劫？

　　＞Meta

　　Meta是AI竞赛中的黑马，其人工智能计划有何突出之处？

　　采用Llama等基础模型的开源方法

　　通过PyTorch软件框架/生态系统，使 AI 变得用户友好并可供每个软件工程师使用。

　　在硬件方面，Meta建立了开放计算项目社区，作为开源硬件创新的关键支柱。 Meta部署了大型GPU集群，并凭借其推荐系统（DLRM模型）一直处于人工智能创新的前沿。Meta 的 AI 基础模型和 PyTorch 生态系统启用了庞大的开源 AI 创新库，部署了基于以太网和 InfiniBand 的 AI/ML 集群，还为其 DLRM 模型和视频转码构建 ASIC。 Meta 正在让人工智能“民主化”，尽管目前尚未获得足够的认可，但这种趋势很快就会转变。

　　相关链接：Meta和MIT最新网络架构研究，对传统架构提出挑战

　　＞Oracle

　　Oracle 坚定支持以太网，不使用 InfiniBand。 Oracle 云基础设施（OCI）利用 Nvidia GPU 和 ConnectX NIC 构建基于 ROCEv2 RDMA 的超级集群。OCI构建了一个独立的RDMA网络，基于DC-QCN的自定义拥塞通知协议，最小限度地使用 PFC，并针对 AI 和 HPC 工作负载进行了微调的自定义配置文件。

　　＞Nvidia

　　Nvidia 的 GPU 及其全栈 AI/ML 解决方案使其成为市场中无可争议的上流玩家。 Nvidia DGX Cloud 解决方案将 Quantum-2 （25.6Tbs） InfiniBand 交换机与 ConnectX 和 Bluefield 网络适配器集成。这些网络适配器支持以太网和 InfiniBand。基于 DGX Cloud 的全栈 InfiniBand 解决方案还将通过 Nvidia 及其 OEM 销售到电信和企业市场。然而，Nvidia 还通过其 Spectrum-X 交换机大力投资以太网。几年前，InfiniBand 是人工智能训练的首选架构，使其成为 Nvidia 集成 DGX 云解决方案的理想选择。随着 Nvidia Spectrum-X 以太网交换机（容量为 51.2 Tbs，是 InfiniBand 交换机容量的两倍）的推出，Nvidia 将转向以太网进行大规模 GPU 部署，以利用以太网更高的端口速度、成本效益和可扩展性。 Spectrum-X 以太网交换机支持高级 ROCEv2 扩展 — RoCE 自适应路由和拥塞控制、遥测支持以及称为collective的网内计算（通过 Nvidia 的 SHARP 产品）。

　　相关链接：谁能阻止英伟达？

　　＞博通

　　博通提供全面的 AI/HPC 网络解决方案，包括交换机芯片和网络适配器。博通对“Correct Networks”的战略收购引入了基于 EQDS UDP 的传输协议，该协议将所有排队活动从核心网络转移到transmitting主机或leaf交换机。这种方法支持 Jericho3/Ramon3 芯片组合中的交换机优化，这是一种“fully scheduled fabric”，配备了packet spraying、leaf交换机中的重新排序缓冲区、路径再平衡、丢弃拥塞通知和硬件驱动的带内故障恢复机制。 Tomahawk （52Tbs）系列专为优化单芯片容量而设计，并非fully scheduled fabric。Tomahawk 交换机也支持边缘队列，它还支持硬件中的延迟关键功能，例如全局fabric级负载平衡和路径再平衡。Tomahawk 不支持leaf交换机中的数据包排序，因此需要在网络适配器（端点）中实现数据包重新排序缓冲区。

　　＞思科

　　思科最近推出了 Silicon One 52Tb/s 交换机，展示了其网络解决方案的多功能性。该交换机是 P4 可编程的，可以灵活地对各种网络用例进行编程。思科基于 Silicon One 的交换机提供对fully scheduled fabrics、负载平衡、硬件故障隔离和遥测的支持。思科与多家 NIC 供应商合作，提供完整的 AI/ML 网络解决方案。

　　相关链接：思科推出新的AI网络芯片，正面硬刚博通、Marvell

　　03总结

　　面向AI/HPC 网络的以太网标准化之旅才刚刚开始，需要通过规模、开放创新和多供应商竞争进一步降低成本和功耗。超级以太网联盟由主要网络利益相关者组成，致力于打造一个专为 AI/HPC 工作负载量身定制的开放式、“全栈”以太网解决方案。如上所述，大多数“必要的”AI/HPC 网络技术已经由各种以太网供应商和超大规模提供商以某种形式或方式大规模部署。所以，关于标准化的挑战不是技术性上的，更多的是建立共识。

审核编辑：黄飞

阅读全文