0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

应用NVIDIA Spectrum-X网络构建新型主权AI云

NVIDIA英伟达 来源: NVIDIA英伟达 2024-07-26 18:58 次阅读

法国云服务提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPUSpectrum-X 以太网网络平台构建区域性 GPU 集群,为用户提供 AI 按需服务业务。

Scaleway 是法国的一家拥有高性能基础设施的云服务提供商,创立于 1999 年,拥有 80+ 云产品及服务,为全球 25,000+ 客户提供云服务,客户包括 Mistral AI、Aternos、Hugging Face、Golem.ai 等。Scaleway 提供一站式的云服务,以开发创新解决方案并帮助用户从零开始构建和扩展 AI 项目,目前 Scaleway 正在构建区域 AI 云,提供 GPU 基础设施,用于大规模的 AI 模型训练、推理及部署。

客户挑战

云 AI 工作负载需求正以前所未有的速度增长,同时生成式 AI 应用也在激增。为满足客户部署生成式 AI 应用程序、训练基础 AI 大模型的需求,云服务提供商面临巨大挑战,需要构建 AI 云,使用加速计算技术和高性能网络来支持 AI 业务。

Scaleway 的核心需求包括:

对于分布式 AI 训练任务,单个任务的训练时间由最慢的计算节点的运行时间决定,这使得尾部延迟至关重要。AI 云需要一个高吞吐、低延迟、低抖动、易扩展的高性能网络,来确保 GPU 间快速、高效的通信,尤其是在大规模部署的场景下。

在多个 AI 任务同时运行的多租户环境中,性能隔离对于保护一个租户的 AI 任务免受其他租户业务的影响是必不可少的。由此提出了对多租户多任务场景下性能隔离的需求。

对于复杂的 AI 云环境,需要专门适用于 AI 网络的监控管理工具,提供细粒度的网络可视化功能、同时具备网络监控和故障定位能力。

为实现 AI 云数据中心的高效、快速部署,需要强大的网络仿真及自动化平台。

随着云上用户、数据、应用的快速增长,网络安全威胁不容忽视,需要提供私有的、安全的零信任基础设施,保障用户的业务安全。

解决方案

Scaleway 采用了 NVIDIA 的 Hopper GPU 和 Spectrum-X 网络平台应对以上挑战。

Scaleway 将 HGX Hopper GPU 服务器加入其 GPU 集群阵容中,以覆盖广泛的计算需求,利用 GPU 的速度和效率加速 AI 分布式工作负载。

对于 Scale-Out AI 网络,Scaleway 采用了基于 BlueField-3 SuperNICSpectrum SN5600 交换机构建的 Spectrum-X 网络平台。NVIDIA 的 Spectrum-X 网络平台是全球首个专为 AI 构建的以太网端到端解决方案,与传统以太网相比,其生成式 AI 训练的网络通信效率提高了 1.6 倍。

同时 Spectrum-X 部署将利用以下网络软件堆栈:

NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为类似于真实世界的生产环境。使用 NVIDIA Air 创建数据中心的数字孪生,可以验证网络配置、网络功能以及自动化部署代码,提升数据中心的部署效率。

NetQ 用于 AI 网络监控,通过高频遥测技术监控 AI 工作负载,NetQ 提供有关数据中心运行状况的数据和统计信息,关联配置和运行状态,并跟踪状态变化。基于遥测信息,NetQ 提供动态路由监控,RoCE 流量计数器,交换机队列直方图等功能,以识别和应对网络微突发、拥塞场景,方便网络故障定位。

Cumulus Linux 用于软件驱动的数据中心网络自动化,Cumulus Linux 是创新的开放网络操作系统,支持 BGP/OSPF 路由协议,以太网虚拟专用网络 EVPN,虚拟路由和转发。

DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK 提供行业标准的开放 API 和软件框架,包括针对 RDMA、网络、安全、存储、数据路径加速的 SDK,帮助开发者快速创建软件定义、SuperNIC 加速的服务。

使用的 NVIDIA 产品

硬件:

NVIDIA HGX Hopper 服务器

NVIDIA Spectrum-4 SN5600 以太网交换机

NVIDIA BlueField-3 B3140H SuperNICs

软件:

Cumulus Linux 网络操作系统

NetQ 监控管理平台

NVIDIA Air 仿真平台

DOCA SDK

实际效果

采用 NVIDIA 的整体解决方案后,极大地提升了 AI 计算能力,缩短了 AI 训练时间,同时加速了 AI 解决方案的开发、部署和上市时间,有效提高了投资回报率。

Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以适应任何 AI 用例

Spectrum-X 提供多租户、多任务的 AI 环境所需的高性能和安全性, 借助动态路由、拥塞控制、全局共享缓冲区等多种机制,实现了多任务的性能隔离。

NetQ 提供对 AI 网络健康状况的深度可视性,具有 RoCE 流量计数器、事件和 WJH(What Just Happened)警报等丰富的仪表板,实现 AI 网络可视化、故障排除和验证功能。

NVIDIA Air 和 Cumulus Linux 支持 API 原生网络环境,该环境可集成到 DevOps 工具链中,实现了第 0 天、第 1 天 和第 2 天操作的无缝衔接。

NVIDIA 网络高级副总裁 Gilad Shainer 表示:

“生成式 AI 等开创性技术的飞速发展,使每家企业都必须把网络创新放在第一位,从而获得竞争优势。NVIDIA Spectrum-X 是对以太网络的一次革命,让企业能够充分利用其 AI 基础设施的强大力量来改变其运营方式,甚至颠覆他们的行业。”

Scaleway 首席执行官 Damien Lucas 表示:

“NVIDIA Spectrum-X 网络技术为我们的‘GPU 集群按需服务’提供了更快的网络连接和更高效的 GPU 通信,使我们的客户能够加速开发和部署他们的 AI 解决方案。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4769

    浏览量

    102385
  • AI
    AI
    +关注

    关注

    87

    文章

    28698

    浏览量

    265959
  • 英伟达
    +关注

    关注

    22

    文章

    3625

    浏览量

    89710

原文标题:应用 NVIDIA Spectrum-X 网络构建新型主权 AI 云

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA Spectrum-X 以太网网络平台已被业界广泛使用

    服务提供商、GPU 提供商和企业用户纷纷采用 Spectrum-XNVIDIA 网络通过广大系统制造商进入各个市场。  
    的头像 发表于 06-03 18:20 845次阅读

    NVIDIA AI Enterprise荣获金奖

    NVIDIA AI Enterprise、GH200 Grace Hopper 超级芯片和 Spectrum-X 在 COMPUTEX 2024 获得认可。
    的头像 发表于 05-29 09:27 311次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise荣获金奖

    借助NVIDIA DOCA 2.7增强AI 数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 303次阅读

    NVIDIA Spectrum-X助力IBM为AI Cloud提供高性能底座

    在混合AI 的时代,企业和组织需要创建、分析和保存海量的数据,在分布式的应用环境中会形成各种各样的数据孤岛,导致复杂系统难以管理,成本不断增加。
    的头像 发表于 05-08 09:27 281次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>助力IBM为<b class='flag-5'>AI</b> Cloud提供高性能底座

    NvidiaAI芯片路线图分析与解读

    SmartNIC智能网卡/DPU数据处理引擎的下一跳ConnectX-8/BlueField-4目标速率为 800G,与1.6T Quantum和Spectrum-X配套的SmartNIC和DPU的路标仍不明晰,NVLink5.0和NVSwitch4.0可能提前发力。
    发表于 04-29 09:59 722次阅读
    <b class='flag-5'>Nvidia</b>的<b class='flag-5'>AI</b>芯片路线图分析与解读

    NVIDIA发布专为大规模AI量身订制的全新网络交换机-X800系列

    NVIDIA Quantum-X800 InfiniBand 网络NVIDIA Spectrum™-
    的头像 发表于 03-20 09:54 394次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA
    发表于 03-19 10:05 252次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    NVIDIA全新AI以太网络平台大幅提升AI性能

    NVIDIA 近日宣布,三家头部系统制造商将率先在其服务器产品阵容中集成专为 AI 量身定制的 NVIDIA Spectrum-X™ 以太网络
    的头像 发表于 11-27 14:31 624次阅读

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    基于最新 NVIDIA Spectrum-X 网络端到端平台,助力客户通过 AI 实现业务转型 NVIDIA 今日宣布,戴尔科技、慧与和联想
    的头像 发表于 11-21 21:50 468次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太<b class='flag-5'>网络</b>平台

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    基于最新 NVIDIA Spectrum-X 网络端到端平台, 助力客户通过 AI 实现业务转型   NVIDIA 今日宣布, 戴尔科技、慧
    发表于 11-21 18:18 191次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太<b class='flag-5'>网络</b>平台

    NVIDIA 在 Microsoft Azure 上推出面向全球企业和初创公司的 生成式 AI Foundry 服务

    SAP、Amdocs、Getty Images 率先使用 NVIDIA AI Foundation Models 构建自定义 LLM、在 NVIDIA DGX
    发表于 11-16 14:13 253次阅读
    <b class='flag-5'>NVIDIA</b> 在 Microsoft Azure 上推出面向全球企业和初创公司的 生成式 <b class='flag-5'>AI</b> Foundry 服务

    创新企业福利:腾讯 × NVIDIA 初创加速计划

    x NVIDIA 初创加速计划 助您降低产品使用门槛 高性能计算集 群 HCC 以高性能服务器为节点,通过 RDMA 互联,大幅提升网络性能,提供高带宽和极低延迟的
    的头像 发表于 11-13 20:40 483次阅读
    创新企业<b class='flag-5'>云</b>福利:腾讯<b class='flag-5'>云</b> × <b class='flag-5'>NVIDIA</b> 初创加速计划

    NVIDIA 人工智能开讲 | 什么是 Spectrum-X 网络平台?

    ”两大音频 APP 上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! 随着生成式 AI 成为热门话题,生成式 AI 所需要的基础设施 —— 数据中心正在发挥着至关重要的作用
    的头像 发表于 11-06 20:25 569次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 什么是 <b class='flag-5'>Spectrum-X</b> <b class='flag-5'>网络</b>平台?

    全新NVIDIA Spectrum-X网络平台构筑阿里生成式AI底座

    全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 底座。
    的头像 发表于 11-02 09:07 606次阅读
    全新<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b><b class='flag-5'>网络</b>平台构筑阿里生成式<b class='flag-5'>AI</b><b class='flag-5'>云</b>底座

    阿里NVIDIA 合作测试以太网络新架构

    全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI 底座 随着生成式 AI
    的头像 发表于 11-01 09:30 276次阅读