电子发烧友网报道(文/周凯扬)近日Linux基金会再度牵手主要云服务厂商、半导体厂商以及系统方案供应商,成立了超以太网联盟(UEC)。联盟成员包括AMD、微软、博通、思科、HPE以及Meta等厂商,几乎可以说是HPC与AI领域的半壁江山了,而该联盟的存在,很可能会为未来的以太网发展带来新的契机。
AI与HPC厂商重新定义以太网下一代标准
那么为何以太网需要UEC这样一个组织呢?这就不得不提到现在盛行的大规模AI计算了。随着训练AI模型对效率和成本的追求,无论是GPT、PALM这样的大语言模型,还是DLRM这样的推介系统,都需要在成千上万块GPU上进行训练,其中网络的重要性愈发显著。
UEC联盟LOGO / UEC
传统的以太网在这样的负载上有诸多优势,比如通用、多供应商的生态系统,包括以太网网关、NIC、线缆、光模块、管理工具和软件等等。其次,对于运营以太网而言,已经有了一套成熟的试验、测量和部署流程,也可以扩展到机架级、机房级或数据中心级。
但UEC认为,未来面对AI和HPC的以太网络还需要一些改进,比如逐包负载均衡、灵活的交付顺序、更现代化的拥塞控制机制和端到端遥测等。UEC目前有四个工作组,分别为物理层、链路层、传输层和软件层。
其中物理层工作组和链路层工作组负责开发提高以太网性能、延迟和管理的规范,传输层工作组开发专用于AI/HPC的大吞吐量、低延迟和高扩展性规范,软件层工作组则负责开发不同AI/HPC应用的软件、API或开源代码。像博通之类的芯片模组厂商,也都会在未来推出符合UEC规范的以太网交换机、NIC等。
直接对标英伟达InfiniBand
从联盟成员以及该技术的定位我们还能看出一些端倪,比如英伟达、谷歌和亚马逊这样的厂商并没有加入。这是因为这三家更愿意发展自己的专有优势技术,而非加入联盟去做通用标准。比如英伟达的Infiniband在HPC与AI领域已经站稳了脚跟,而谷歌的TPUv4则引入了内部自研的光电交换技术OCS,亚马逊则更倾向于使用自己的Nitro系统来为HPC与ML应用提供支持。
这些自研方案固然可以用于极大提升竞争力,但对于部分大规模云服务厂商来说,他们很讨厌这种绑定单一供应商的做法,而且其协议也不是最通用的以太网,所以他们这才开始联手对以太网进行AI与HPC时代下的改造,以求打破Infiniband可能存在的垄断优势。
除了亚马逊和谷歌这些选择的云服务厂商以外,其他几家厂商的最大竞争对手自然而然地变成了英伟达,他们在这之前或多或少也有参与过互联方案的开发。比如HPE,他们的CraySlingshot也是HPC系统中常见的互联技术之一,同时也是以太网技术的超集变体之一,当下TOP500的不少超级计算机中用的仍是这一系统。而HPE则表示,他们支持UEC的目的是保证CraySlingshot能够在一个开放的生态系统中运行,同时符合UEC标准的NIC也能够享受到Slingshot的部分性能和扩展性优势。
写在最后
考虑到UEC才成立没多久,所以相关的标准和技术都处于早期开发阶段,第一版草案很可能会要到明年才能面世,至于第一批符合标准的产品,也需要等待立项开发以及后续的市场验证。不过这也恰好展现AI计算与HPC市场的一个缩影,那就是有的厂商在不断推进专有化,而有的厂商则一直追求开放标准。
-
以太网
+关注
关注
40文章
5354浏览量
170879
发布评论请先 登录
相关推荐
评论