0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum X如何推动英伟达网络业务实现31亿美元收入

奇异摩尔 来源:奇异摩尔 2024-11-25 11:41 次阅读

英伟达数据中心收入继续扩大

北京时间11月21日凌晨,英伟达发布本季度财报,公司实现营收350.8亿美元,同比增长93.6%,好于彭博一致预期(332亿美元)。公司收入增长,主要受数据中心业务需求增长的带动。在AI等需求的带动下,2025财年第三季度英伟达的数据中心业务在公司收入中的份额继续扩大,本季度达到了87.7%。

b02b2104-a8ba-11ef-93f3-92fbcf53809c.png

(Source:海豚投研)

细分来看,数据中心业务中计算收入为276亿美元,同比增长132%;网络收入为31亿美元,同比增长20%,这得益于益于Ethernet for AI,其中包括Spectrum X端到端以太网平台。据统计,AI网络NVIDIA Spectrum-X以太网AI收入同比增长超过3倍。

就在不久前,AI网络产业刚爆出了一项大新闻。马斯克仅用了122天就塑造了xAI 位于田纳西州孟菲斯市的 Colossus 超级计算机集群,该集群使用10万张NVIDIA Hopper GPU加速卡,超过1500个GPU机架,堪称全球最大AI超级计算机集群。

实际上,该集群使用了 NVIDIA Spectrum-X 以太网网络平台,该平台是专为多租户、超大规模的 AI 工厂提供卓越性能而设计的 RDMA网络而并不是InfiniBand网络。

NVIDIA声称专门面向 AI 的 Spectrum-X 以太网网络具有先进的功能,可在提供高效、可扩展的带宽的同时,实现低延迟和短尾延迟,而这些功能之前是 InfiniBand 网络所独有的。

NVIDIA基于 AI 的 Spectrum-X 以太网系统是一整套AI Networking的全家桶组合包括需要购买Spectrum-X交换机、Bluefield SuperNIC以及相关光模块及线缆组件。

基于以太网的Spectrum-X特性

我们根据超大以太网集群所面临的通信挑战来了解下基于以太网的Spectrum-X方案如何优化基于以太网的RDMA功能。

部分内容结合Nvidia AI Networking Whitepaper 编译

基于以太网的NVIDIA Spectrum-X:专为生成式AI时代设计

AI云作为支持生成式AI工作负载的新型数据中心类别,正日益受到业界的关注。这类数据中心不仅继承了传统云的核心功能,如多租户支持、安全性保障和多样化的工作负载支撑,更在支持更大规模的生成式AI应用方面展现出卓越能力。生成式AI是一类基于训练数据生成新输出的人工智能算法,其以图像、文本、音频等多种形式创造全新内容,与旨在识别模式和进行预测的传统人工智能系统形成鲜明对比。 NVIDIA Spectrum-X构建了以太网多租户、超大规模AI云而精心设计的革命性解决方案,它完美契合了生成式AI时代的发展需求。

无损网络与RDMA

在有损网络环境中,数据传输过程中面临着丢失或质量下降的风险。这种网络倾向于优先考虑数据传输的速度而非准确性。然而,对于AI应用而言,丢包导致的后果可能是灾难性的,包括性能下降、GPU资源的空闲浪费以及功耗的额外开销。

b063641a-a8ba-11ef-93f3-92fbcf53809c.png

图1:GPU-GPU的RDMA通信实现示意图

无损网络则完全改变了这一局面。在这种网络中,数据传输的完整性得到严格保障,所有数据包都能够准确无误地到达目的地。尽管以太网最初的设计确实允许一定的丢包率,但在InfiniBand网络中,无损是基本要求。

随着GPU计算和大规模AI应用场景在云环境中的广泛应用,以太网也通过采用RoCE(RDMA over Converged Ethernet)和基于优先级的流量控制(PFC,Priority Flow Control)等技术,结合无损网络的实现,使用NVIDIA Spectrum-X,为AI应用提供了更加可靠和高效的解决方案。 远程直接内存访问(RDMA,Remote Direct Memory Access)技术的出现,进一步提升了网络传输的效率。它允许数据在远程系统、GPU和存储器之间直接传输,无需经过CPU的干预。传统的网络传输方式涉及多个复杂的步骤,包括数据的复制、网络发送以及接收方的多步骤处理。而RDMA则直接跨越了这些繁琐的中间环节,实现了数据的高效传输。我们在之前的Kiwi Talks有叙述过目前RDMA面对大规模集群存在的问题及建议。

挑战与方案1:自适应路由、多路径与数据包喷洒

传统数据中心的应用程序通常会产生大量的小数据流,这使得网络流量的统计平均值能够反映整体情况。在这种背景下,基于简单静态哈希的路由算法,如等价多路径(ECMP,Equal Cost Multi-Path),足以应对常见的网络流量问题。

然而,人工智能工作负载的特性却截然不同。它们通常会产生少量的大数据流,被称为“大象流”(elephant flows)。这些大象流会占用大量的链路带宽,如果多个大象流被路由到同一链路,就会导致严重的拥塞和高延迟。在人工智能应用中,即使是在非阻塞拓扑中使用ECMP,大象流之间的碰撞几率也非常高。由于AI作业的性能高度依赖于最坏情况下的表现,这些碰撞会导致模型训练时间既超出预期又变得极为不稳定。

b0819bd8-a8ba-11ef-93f3-92fbcf53809c.png

图2:NVIDIA:Spectrum-X以太网自适应路由的细粒度数据包示意图

因此,NVIDIA引入自适应路由算法来动态平衡网络中的数据传输。此外,路由的精细度也至关重要,以避免大象流之间的碰撞。即使按流量进行路由,仍然存在拥塞的可能性。然而,当采用数据包喷洒(Packet Spraying)技术,即按每个数据包进行路由时,数据包可能会以无序的方式到达目的地。为了实现数据包粒度的自适应路由,我们需要建立灵活的重新排序机制,确保自适应路由对应用程序来说是透明的。

挑战与方案2:拥塞控制

在繁忙的多租户AI云环境中,不同AI作业并行运行时,网络拥塞问题往往难以避免。尤其是当大量发送方试图向单一目的地或不同目的地(这些目的地可能已受到其它应用背景流量的影响)传输数据时,网络拥塞现象尤为显著。这种拥塞不仅会导致延迟飙升和有效带宽急剧缩减,还可能引发网络“热点”的扩散,造成相邻租户的相互干扰,即受害者效应。

b094221c-a8ba-11ef-93f3-92fbcf53809c.png

图3:NVIDIA:Spectrum-X以太网拥塞控制与交换机和NVIDIA BlueField SuperNIC协同工作

传统的拥塞控制方法,如显式拥塞通知(ECN,Explicit Congestion Notification),在支持生成式AI的以太网环境中显得捉襟见肘。为了有效缓解拥塞,负责数据传输的网络设备(如NIC或DPU)必须进行精确的流量控制。然而,ECN机制在交换机缓冲区接近满载时才开始发挥作用,此时接收方会通知发送方限制其发送速率。但在大规模AI模型常见的突发流量场景下,这种延迟的拥塞反馈可能导致缓冲区迅速填满,进而引发丢包问题。尽管深度缓冲交换机能够降低缓冲区溢出的风险,但它们引入的额外延迟却削弱了拥塞控制的初衷。

实现高效的拥塞控制需要交换机与网卡NIC之间的紧密协作。NVIDIA Spectrum-X通过利用Spectrum-4交换机的带内、硬件加速的遥测数据,为BlueField-3 SuperNIC提供实时的流量计量信息

挑战与方案3:性能隔离与安全性多租户环境如AI云,必须确保各个作业之间的性能隔离,以免受到其它作业的网络流量干扰。遗憾的是,许多以太网ASIC设计在性能隔离方面考虑不足。这导致某些作业在面临“近邻干扰”(noisy neighbor)(即向同一端口发送流量的相邻作业)时,其有效带宽可能会急剧下降。 以太网网络在设计时还需考虑网络公平性。AI云应支持多种异构应用程序的混合运行。由于不同应用程序可能使用不同大小的数据帧,如果没有适当的隔离优化措施,大数据帧可能会占用过多的带宽资源,导致小数据帧传输受阻。

实现性能隔离和防止“近邻干扰”的关键在于采用共享数据包缓冲区。通过为所有作业提供平等的缓存访问权限,共享缓冲区能够确保混合AI云工作负载的稳定性和低延迟。

b0a51acc-a8ba-11ef-93f3-92fbcf53809c.png

图4:强调通用共享数据包缓冲区架构与分割缓冲区实现之间重要性

除了从带宽角度考虑性能隔离外,我们还应认识到性能隔离与零信任架构对于多租户环境网络安全的重要性。数据无论是在静止状态还是传输过程中,都需要得到严格的保护。高效的加密和认证工具能够在不牺牲性能的前提下提供强大的安全保障。BlueField-3 DPU集成了安全引导功能,为基于硬件的信任根提供了坚实基础,并支持MACsec和IPsec等协议用于数据加密,以及AES-XTS 256/512等加密算法用于静态数据的保护。

以上是英伟达对基于以太网Spectrum-X解决方案的部分优势特性总结;

UEC 超以太联盟对标 NVIDIA Spectrum

b0afe2c2-a8ba-11ef-93f3-92fbcf53809c.png

我们已经了解UEC是专门为AI网络Scale -out互联成立的国际联盟,目的是全面优化RDMA的功能,从而实现更大规模的AI网络集群的高效运作。

UEC 主要在Transport Layer传输层做了全面的优化,不限于消息语义优化、数据包传输、拥塞控制及可靠性安全性等目前大规模集群扩展需要优化的功能。

UEC支持自适应路由及数据包喷洒

超以太联盟下一代的Modernized RDMA将支持多路径传输的数据包喷洒技术,从而优化自适应路由。UEC支持了RUD,UET就可以将同一个流的不同包分散到多个路径上同时传输,实现包喷洒功能。这让交换机可以充分发挥ECMP甚至WCMP(Weighted Cost Multi- Pathing)路由能力,将去往同一目的地的数据包通过多条路径发送,大幅度提高网络利用率。

b0bee074-a8ba-11ef-93f3-92fbcf53809c.png

(来源:AMD

UEC将支持端到端遥测Telemetry

新的UEC对于拥塞做出了优化机制:来自网络的拥塞信息可以向参与者提供拥塞的位置和原因。缩短拥塞信号路径并向端点提供更多信息,能够实现更快速的拥塞控制。无论是发送方还是接收方安排传输,现代交换机都可以通过快速传递准确的拥塞信息给调度器或起搏器pacer,促进响应式的拥塞控制,从而提高拥塞控制算法的响应速度和准确性。结果是减少了拥塞、降低了丢包率和缩短了队列长度——所有这些为改善尾部延迟提供了服务。

UEC支持安全性与加密

UEC传输协议从设计之初就融入了网络安全概念,能够加密并验证AI训练或推理作业中计算端点间发送的所有网络流量。UEC传输协议借鉴了现代加密方法(如IPSec和PSP)中用于高效会话管理、认证和保密的核心技术。随着作业规模的扩大,必须在不使主机和网络接口的会话状态急剧膨胀的前提下支持加密。为此,UET(UEC传输)引入了新的密钥管理机制,允许成千上万个参与同一作业的计算节点之间高效共享密钥。它被设计成能在AI训练和推理所要求的高速和大规模下高效实现。托管在大型以太网网络上的高性能计算(HPC)作业具有类似的特征,同样需要相当的安全机制。这意味着UEC传输不仅能满足AI领域的需求,也能适应HPC环境中对于安全性和性能的严格要求,确保数据在大规模网络中的传输既高效又安全。

b0c41e0e-a8ba-11ef-93f3-92fbcf53809c.png

UEC成员Arista公司表示,“当PCI总线因主机CPU上的竞争工作负载或降速等原因出现拥塞时,通常需要使用ECN(显式拥塞通知)标记。Arista在实现ECN标记方面经验丰富,可以对经过拥塞队列的数据包进行标记。此外,该公司还支持即将推出的多种网络内遥测(In-Network Telemetry)技术,它们能提供更细粒度的网络拥塞队列深度信息,从而全面支持网络内遥测。这项新技术预计将与超以太网的网卡和未来的RDMA一起发挥更大作用。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    16

    文章

    4775

    浏览量

    72117
  • AI
    AI
    +关注

    关注

    87

    文章

    30851

    浏览量

    269011
  • 英伟达
    +关注

    关注

    22

    文章

    3775

    浏览量

    91035

原文标题:AI网络热点 | NVIDIA Spectrum X如何推动英伟达网络业务实现31亿美元收入

文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟年度研发支出超120亿美元,为AMD的两倍之多

    研发费用被视为预示未来收入增长的关键高质量指标之一,而英伟NVIDIA)因其不断上调的未来季度营收预期,在研发领域的领先地位超越包括AMD在内的竞争对手,实属意料之中。   
    的头像 发表于 10-15 15:53 576次阅读

    英伟拟1.65亿美元收购OctoAI

    英伟再次展现其在AI领域的雄心壮志,计划以约1.65亿美元的价格收购西雅图软件初创公司OctoAI。据OctoAI向股东披露的文件,英伟
    的头像 发表于 09-20 17:09 912次阅读

    英伟市值蒸发近2000亿美元

    英伟Nvidia)在周四的美股交易中遭遇了重大挫折,股价暴跌超过6%,市值瞬间蒸发近2000亿美元。这一戏剧性下滑源于公司最新财报未能满
    的头像 发表于 08-30 15:38 435次阅读

    英伟Q2销售额翻倍 分析师预测营收286亿美元 利润187亿美元

    , Zacks Investment Research 分析师预计英伟公司第二季度整体收入增长可能达到 109%。而Hargreaves Lansdown 分析师则预测 英伟
    的头像 发表于 08-27 14:36 685次阅读

    英伟收购软件初创公司Shoreline

    近日,全球知名的图形处理器制造商英伟NVIDIA)宣布了一项重要的收购计划,将以约1亿美元的价格收购软件初创公司Shoreline。这次
    的头像 发表于 06-21 11:08 585次阅读

    NVIDIA Spectrum-X 以太网网络平台已被业界广泛使用

    云服务提供商、GPU 云提供商和企业用户纷纷采用 Spectrum-XNVIDIA 网络通过广大系统制造商进入各个市场。   NVIDIA 于今日宣布
    的头像 发表于 06-03 18:20 969次阅读

    英伟销售预测乐观,市值突破2.6万亿美元

    在人工智能的浪潮中,芯片制造商英伟再次展示了其强劲的增长势头。近日,该公司给出了第二财季收入预测,预计收入将达到约280亿
    的头像 发表于 05-27 10:25 552次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    模型的无缝高速通信设定新标准。 英伟BlueField 实现数据中心转型 NVIDIA BlueField 网络平台为现代数据中心和超级计
    发表于 05-13 17:16

    英伟市值一夜蒸发6116亿英伟员工分走6200万美元

    在这场股市风暴中,英伟股价暴跌3.87%,市值一夜蒸发约845亿美元,折合人民币高达6116亿元。
    的头像 发表于 04-18 14:52 2193次阅读

    英伟市值超过2.3万亿美元

    英伟NVIDIA)近日在美股市场表现出色,市值再创新高。上周四,英伟股价收高4.47%,成功突破900
    的头像 发表于 03-11 11:12 802次阅读

    英伟一天蒸发近万亿 英伟市值蒸发超9200亿

    英伟一天蒸发近万亿 英伟市值蒸发超9200亿元 美国时间3月8日英伟
    的头像 发表于 03-10 15:42 1955次阅读

    英伟市值1.96万亿美元

    。目前英伟市值仅次于微软和苹果。 就在英伟公布极其靓丽的财报后英伟再次创造了一个奇迹,一天
    的头像 发表于 02-24 15:22 935次阅读

    英伟单日市值飙升2770亿美元 黄仁勋身家一年暴增4倍

    英伟单日市值飙升2770亿美元 黄仁勋身家一年暴增4倍 AI狂欢时代来临了吗?就在英伟超强超
    的头像 发表于 02-23 16:33 803次阅读

    英伟打赢地球保卫战但英伟透露中国数据中心收入下降

    英伟打赢地球保卫战但英伟透露中国数据中心收入下降 全球都在关注的“AI卖铲人”英伟
    的头像 发表于 02-22 19:08 2708次阅读

    印度厂商Yotta采购10亿美元英伟AI芯片

    印度数据中心运营商Yotta近日宣布,计划从合作伙伴英伟Nvidia)额外订购价值5亿美元的AI芯片,使得订单总额达到10
    的头像 发表于 01-12 15:09 905次阅读