0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

揭秘超以太网联盟(UEC)1.0 规范最新进展(2024Q4)

星融元 来源:jf_55437772 作者:jf_55437772 2024-11-18 16:53 次阅读

近期,由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立的超以太网联盟(UEC)在OCP Global Summit上对外公布其最新进展——UEC规范1.0的预览版本。让我们一睹为快吧!

UEC 旨在提出一种“升级版”的以太网通信协议栈用以应对AI智算、HPC等领域对RDMA网络的性能挑战——当前大规模计算节点互联场景下主要有InfiniBand和基于以太网协议的RoCE两大技术路线。有关IB和RoCE协议栈的详尽对比可参阅:

[高性能网络传输:RoCE与IB协议栈对比解析]
相比较为封闭的IB架构,以太网在互操作性和带宽成本上的优势已在市场层面得到了广泛认可,尤其是大规模的AI算力中心场景。当前全球TOP500的超级计算机中RoCE和IB的占比相当,以端口带宽总量计算,IB占比为39.2%,RoCE已达48.5%。

尽管IB和RoCE在高性能传输的拥塞控制、QoS皆有应对设计,但也暴露出一些缺陷。例如乱序需要重传、不够完美的负载分担、Go-back-N问题,DCQCN 部署调优复杂等等。

面向GPU Scale-out网络的UEC 1.0 规范从软件API、运输层到链路层以及网络安全和拥塞控制皆有涉及,较传统RDMA网络有了大量改进,我们将挑出重点介绍。

什么是超级以太网系统

一个超级以太网系统的组成如下。一个集群(Cluster)由节点(Node)和网络(Fabric)组成,节点通过网卡(Fabric Interface)连接到网卡,一个网卡中可以有多个逻辑的网络端点(Fabric End Point,FEP)。网络由若干平面(Plane)组成,每个平面是多个FEP的集合,通常通过交换机互联。

超以太网协议栈概览

物理层与传统以太网完全兼容,可选支持FEC(前向纠错)统计功能

链路层可选支持链路层重传(LLR),并支持包头压缩,为此扩展了LLDP的协商能力

网络层依然是IP协议,没有变化

传输层是全新的,作为UEC协议栈的核心数据包传输子层(Packet Delivery)和消息语义子层(Message Semantics)。包传输子层实现新一代拥塞控制、灵活的包顺序等功能,消息语义子层支持xCCL和MPI等消息。可选支持安全传输。另外,在网集合通信(In Network Collective,INC)也在这一层实现

▣ ** 软件API层** 。提供UEC扩展的Libfabrics 2.0

物理层

UEC 1.0规范下的物理层与传统以太网(符合IEEE802.3标准)完全兼容,支持每通道100Gbps和200Gbps速率,在此基础上实现800Gbps和更高的端口速率。

另外可选支持物理层性能指标统计功能(PHY metrics)。这些指标基于 FEC 码字进行计算,不受流量模式和链路利用率的影响。估计算法基于FEC错误计数器的数据,从而得出不可纠正错误率(UCR )和数据包错误平均间隔(MTBPE)。这些指标衡量了物理层的传输性能和可靠性,用于上层的遥测和拥塞控制等。为了支持新的 UEC 链路层功能,UEC规范中也对协调子层(RS)进行了相应的修改。

链路层

UEC链路层最大的变化是引入了LLR(Link Level Retry)协议。它可以让以太网不依赖PFC,实现无损传输。

LLR 机制是基于帧的。每个帧都分配了一个序列号,接收端成功接收这一帧后,检查帧的序列号是否符合预期,如果正确,发送确认消息(ACK),如果发现帧乱序或者丢失,则发送否定确认消息 (NACK)。发送端具有超时机制,用于保证在 NACK 丢失时重传。

传输层:UET,新一代协议栈的核心

前文提过,传统的RDMA网络传输层(包括IB和RoCE)在多路径传输、负载分担、拥塞控制以及参数调优等方面存在着不足之处。随着AI/HPC集群规模增长,网络的确定性和可预测性越来越困难,需要全新的方法来解决。

UEC传输层(UEC Transport Layer,简称UET)运行在IP和UDP协议之上, 支持实现以下几大技术目标:

▣ 支持高达 100 万个 GPU/TPU 的算力集群

▣ 往返时间低于 10μs

▣ 单接口带宽800Gbps及以上

▣ 网络利用率超过85%

选择性重传

(Selective Retransmit)

传统传输协议,如TCP需要严格的传输顺序,并采用了Go-Back-N机制。而一个RDMA消息通常包含多个数据包,只要有一个数据包错误,则从这个数据包起的所有数据包都要重传。这让偶尔的传输错误被放大,加剧了网络拥塞。UEC采用选择性重传机制,仅传输错误的数据包。

乱序交付

(Out-of-Order Delivery)

UET不仅支持有序传输,也支持无序传输。这是因为现代网络中通常有多路径存在,同一个流的数据包经过不同路径传输,就可能造成乱序。如果还要求严格的顺序传输,就无法利用多路径来实现负载分担。此外,选择性重传也需要无序传输的支持。为了实现无序传输,需要接收方有更大的数据包缓冲区,从而将乱序的数据包组成一个完整的RDMA消息。

UET支持四种传输方式:

▣ ROD (Reliable Ordered Delivery)

– 需要拥塞控制、有序、可靠、无重传(依旧采用Go-Back-N)

▣ RUD (Reliable Unordered Delivery)

– 需要拥塞控制、无序、可靠、无重传

▣ RUDI (RUD for Idempotent Operations)

– 可选拥塞控制、无序、可靠、重传

▣ UUD (Unreliable Unordered Delivery)

– 可选拥塞控制、无序、不可靠、重传

包喷洒

(Packet Spraying)

包喷洒是一种基于包的多路径传输。由于传统传输协议不支持无序传输,同一个数据流必须按照同一个路径传输,否则就会造成乱序,引发重传。而在AI/HPC应用中,存在大量的“大象流”,它们数据量大、持续时间长,如果能使用多路径传输一个流,将显著提高整个网络的利用率。

由于支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

拥塞控制

(Congestion Control)

UET 拥塞控制包含以下重要特性,由端侧硬件和交换机配合完成,有效减小了尾部延迟。

▣ **Incast管理。**它用于解决集合通信(Collective)中下行链路上的扇入问题。AI和HPC应用经常采用集合通信在多个节点之间同步信息,当多个发送者同时向一个接收者发送流量,就会产生Incast拥塞。

▣ **速率调整加速。**现有的拥塞控制算法,在发生网络拥塞后调整速率的过程较长,而 UET 可以快速上升到线速。方法是测量端到端延迟来调节发送速率,以及根据接收方的能力通知发送方调整速率。

▣ **基于遥测。**源自网络的拥塞信息可以通告拥塞的位置和原因,缩短拥塞信令路径并向终端节点提供更多信息,从而实现响应速度更快的拥塞控制。

基于包喷洒的自适应路由 。当拥塞发生时,通过包喷洒技术将流量重新路由到其它路径上,绕过拥塞点。

端到端的安全

UEC在传输层内置安全。它是基于作业(Job)的,可以对整个作业的流量进行端到端的AES加密,充分利用 IPSec 和PSP(Packet Security Protocol)的能力,减小安全加密的开销,提供可扩展安全域,并且可以由硬件卸载。

在网计算

(In Network Collectives)

在网计算最早应用在HPC集群,业界主要有两个思路,一是基于网卡的,二是基于交换机。

UEC V1.0 的目标是后者,即将集合操作卸载到各级交换机上完成,避免过多的收发次数,降低节点交互频率和处理时延开销,减少约一半数据传输量,从而加速All-Reduce操作。

在部署实现上,目前AI智算领域唯一大规模商用的案例仅有英伟达的SHARP(在ASIC层面实现的硬件加速),以太网设备厂家仍处在探索阶段,例如将算力内置于交换机或外接,甚至P4可编程都是可能的思路方向。

软件层:Extended Libfabrics 2.0

在软件层,UEC提供简化的API。它简化了RDMA操作,并为AI和HPC应用提供专用的API,如xCCL, MPI, PGAS和OpenShmem等。

硬件升级:支持UEC的交换机和网卡

UEC在规范中定义了支持超级以太网交换机的架构,可以看到大体是继承了SONiC的架构。这部分的主要关注在于控制平面上支持INC和SDN控制器;数据平面升级了SAI(Switch Abstraction Interface)API调用硬件提供的INC等能力。

UEC同样定义了网络端点(Fabric End Point)的软硬件架构。在硬件层,网卡升级支持UEC功能。在操作系统内核态,实现网卡驱动。在用户态,基于libfabric扩展实现INC管理等功能,支持上层的xCCL/MPI/SHMEM等应用。

总的来说,UEC v1.0规范重构了数据中心以太网以完全替代传统的RDMA网络,用更高的性能、更低的成本实现稳定可靠、具有百万节点的AI/HPC集群。

星融元RoCE交换机与UEC

作为UEC成员单位,星融元提供的超低时延RoCE交换机(CX-N系列)全系采用高性能的标准白盒网络硬件,搭载为生产环境深度调优的企业级SONiC发行版——多项 Easy RoCE 特性,全面兼容现有规范并提供灵活、广大的升级空间,未来将平滑演进与新一代以太网标准保持同步。

[抢先围观!星融元51.2T 800G RoCE交换机测试]

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5361

    浏览量

    170959
  • 通信
    +关注

    关注

    18

    文章

    5965

    浏览量

    135819
  • 网络
    +关注

    关注

    14

    文章

    7505

    浏览量

    88593
  • RDMA
    +关注

    关注

    0

    文章

    76

    浏览量

    8916
收藏 人收藏

    评论

    相关推荐

    Qorvo在射频和电源管理领域的最新进展

    了半导体行业的重大变革,还成功引领Qorvo成为射频技术的领导者。在本次专访中,Philip将为大家分享Qorvo在射频和电源管理领域的最新进展,并探讨HPA事业部如何通过技术创新应对全球电气化和互联化的挑战。
    的头像 发表于 11-17 10:57 225次阅读

    小鹏汽车图灵芯片及L4自动驾驶新进展

    的特定领域架构,进一步提升了其处理能力。 据悉,小鹏汽车已在今年10月份成功在图灵芯片上跑通了智能驾驶功能,这标志着公司在智能驾驶领域取得了重要进展。 除了图灵芯片,何小鹏还透露了小鹏汽车在L4级自动驾驶方面的最新进展。他表示,
    的头像 发表于 11-08 11:01 868次阅读

    芯片和封装级互连技术的最新进展

    近年来,计算领域发生了巨大变化,通信已成为系统性能的主要瓶颈,而非计算本身。这一转变使互连技术 - 即实现计算系统各组件之间数据交换的通道 - 成为计算机架构创新的焦点。本文探讨了通用、专用和量子计算系统中芯片和封装级互连的最新进展,并强调了这一快速发展领域的关键技术、挑战和机遇。
    的头像 发表于 10-28 09:50 308次阅读

    高燃回顾|第三届OpenHarmony技术大会精彩瞬间

    第三届OpenHarmony技术大会圆满落幕 全球开源精英齐聚 共同展示OpenHarmony技术、生态、人才的最新进展 见证OpenHarmony南北向生态繁荣 共绘开源生态发展蓝图 星光璀璨致谢
    发表于 10-16 18:47

    5G新通话技术取得新进展

    在探讨5G新通话这一话题时,我们需首先明确其背景与重要性。自2022年4月国内运营商正式推出以来,5G新通话作为传统语音通话的升级版,迅速吸引了公众的目光,并引起了社会的广泛关注。它基于5G网络,代表了通信技术的新进展
    的头像 发表于 10-12 16:02 516次阅读

    定义AI Agent四大核心能力,荣耀IFA剧透端侧AI创新进展

    ,荣耀CEO赵明在2024德国柏林消费电子展(Internationale Funkausstellung Berlin,以下简称IFA)再度带来端侧AI创新最新进展,首次向外界透露荣耀AI
    的头像 发表于 09-10 11:42 221次阅读
    定义AI Agent四大核心能力,荣耀IFA剧透端侧AI创<b class='flag-5'>新进展</b>

    广东的5G-A、信号升格和低空经济,又有新进展

    了两地的5G/5G-A、智算等数字基础设施建设,深入了解了他们在信号升格和低空经济方面的最新进展。活动一共持续了三天,前后跑了8个项目,虽然很累,但收获满满。接下
    的头像 发表于 04-19 08:05 821次阅读
    广东的5G-A、信号升格和低空经济,又有<b class='flag-5'>新进展</b>!

    百度首席技术官王海峰解读文心大模型的关键技术和最新进展

    4月16日,以“创造未来”为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基,星河璀璨”为题,发表演讲,解读了智能体、代码、多模型等多项文心大模型的关键技术和最新进展
    的头像 发表于 04-18 09:20 653次阅读
    百度首席技术官王海峰解读文心大模型的关键技术和<b class='flag-5'>最新进展</b>

    官网上线!4月16日-17日,揭秘百度Create大会“AI公开课”

    3月5日,百度Create AI开发者大会官方网站正式上线。本次大会将于20244月16日至17日在深圳国际会展中心(宝安)举办,届时不仅会带来AI技术的最新进展,还将设置30节“
    的头像 发表于 03-06 15:30 874次阅读

    四个50亿+,多个半导体项目最新进展

    来源:全球半导体观察,谢谢 编辑:感知芯视界 Link 近日,半导体行业多个项目迎来最新进展,其中浙江丽水特色工艺晶圆制造项目、浙江中宁硅业硅碳负极材料及高纯硅烷系列产品项目、晶隆半导体材料及器件
    的头像 发表于 02-27 09:35 947次阅读

    清华大学在电子鼻传感器仿生嗅闻方向取得新进展

    近日,清华大学机械系在电子鼻仿生嗅闻研究中取得新进展,相关研究成果以“Sniffing Like a Wine Taster: Multiple Overlapping Sniffs (MOSS
    的头像 发表于 02-20 10:57 914次阅读
    清华大学在电子鼻传感器仿生嗅闻方向取得<b class='flag-5'>新进展</b>

    800G以太网技术到底有何好处?

    5G和50G以太网联盟标准提供了基于8 lanex100Gb/s技术的800G实施规范,使采用者能够部署先进的高带宽互操作以太网技术。
    发表于 01-16 18:22 828次阅读
    800G<b class='flag-5'>以太网</b>技术到底有何好处?

    两家企业有关LED项目的最新进展

    近日,乾富半导体与英创力两家企业有关LED项目传来最新进展
    的头像 发表于 01-15 13:37 652次阅读

    万兆以太网规范解读

    就目前来说,万兆以太网标准和规范都比较繁多,在标准方面,有 2002 年的IEEE 802.3ae,2004 年的 IEEE 802.3ak,2006 年的 IEEE 802.3an、IEEE
    的头像 发表于 01-15 10:21 2297次阅读
    万兆<b class='flag-5'>以太网</b><b class='flag-5'>规范</b>解读

    超越传统以太网揭秘UEC工作组的最新进展

    以太网联盟致力于从物理层、链路层、传输层、软件层改进以太网技术,在兼容当前以太网生态的前提下,提升以太网的转发性能,致力于改进
    发表于 12-12 15:05 4544次阅读
    超越传统<b class='flag-5'>以太网</b>,<b class='flag-5'>揭秘</b><b class='flag-5'>UEC</b>工作组的<b class='flag-5'>最新进展</b>!