0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-X助力IBM为AI Cloud提供高性能底座

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-05-08 09:27 次阅读

在混合云与 AI 的时代,企业和组织需要创建、分析和保存海量的数据,在分布式的应用环境中会形成各种各样的数据孤岛,导致复杂系统难以管理,成本不断增加。为了能够更快速地从数据中获得所需的洞察力,其底层的信息架构必须支持混合云、大数据和人工智能(AI)工作负载以及传统应用,同时确保安全性、可靠性、数据效率和高性能,还需要能够无缝扩展来应对非结构化数据的飞速增长。

IBM Storage Scale 作为一种高性能的并行数据存储解决方案,可以帮助用户更快速地获得所需的计算或分析结果,管理快速扩展的数据和基础架构,同时确保数据安全性并降低总体存储成本。

36e6907c-0c74-11ef-a297-92fbcf53809c.png

图1:AI 与混合云对数据存储的需求

面对生成式 AI 的爆炸式发展,GPU 集群的运算性能至关重要,不仅需要更高的 GPU 的计算能力和更快的存储,同时需要专用的网络基础设施来确保多个节点并行的最佳性能。NVIDIA 开发了业界首款面向 AI 的以太网网络平台 - Spectrum-X ,旨在增强 AI 云的性能和效率。Spectrum-X 平台的核心是 NVIDIA Spectrum-4 以太网交换机NVIDIA BlueField-3 SuperNIC/DPUNVIDIA DOCA 软件栈及交换机软件栈NVIDIA LinkX 高品质互连设备,这种组合构成了 AI 加速计算网络架构的基础。NVIDIA 将 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 训练、推荐及推理等各种系统中,不仅满足以太网在多租户云上的各种需求,同时保证了 AI 集群最好的运算及存储性能。

3704076a-0c74-11ef-a297-92fbcf53809c.png

图2:NVIDIA Spectrum-X 平台介绍

在 AI 云存储平台的选择上,IBM Storage Scale 可提供经过验证的企业级数据平台。IBM Storage Scale 源自 GPFS,有超过 30 年的研发历史,在全球有大量成功部署的经验,广泛应用在业界超大规模和需求严苛的应用环境,包括过去几十年间全球性能最强的人工智能和高性能计算环境。

为了满足不同类型应用的数据访问需求,IBM Storage Scale 能够将文件、大数据分析、对象和容器应用的接口集成到一个统一的向外扩展的存储解决方案之中。它可为所有这些数据提供一个统一的命名空间,实现协议互通,并通过直观的图形用户界面(GUI)提供单点管理。通过对最终用户透明的存储策略,可对数据进行分层、压缩或迁移到磁带或云端,以降低成本;数据还可以分层到高性能数据存储介质,包括服务器缓存,进而降低延迟、提升性能。远程站点的智能数据缓存可确保借助活动文件管理(AFM)功能以本地读/写性能在地域分散的各个站点之间提供数据,不需要复制全部数据,减少数据传递的网络开销。

3723cd2a-0c74-11ef-a297-92fbcf53809c.png

图3:IBM Storage Scale 概览

对于 AI 集群应用来说,为了满足不断提高的算力和各种基础模型对更大参数规模的需要,也需要更高速的数据访问能力,避免因为存力不足导致的低效 I/O使得 GPU 无用武之地。由多台服务组成的 GPU 服务器集群需要数百 GBps 到数 TBps 的高速数据存储才能满足其对存力的需求;此外,为了提升 GPU 的应用效率,NVIDIA 开发了 GPUDirect Storage 技术,可以通过 RDMA 高速网络直接将数据从外部存储传输至 GPU 显存上,能有效减轻 CPU I/O 的瓶颈,提升 GPU 访问数据的带宽并大幅缩短通信延迟;此外,对于 AI 应用来说,从数据摄入到生产推理,每个环节都需要利用不同工具实现海量数据处理,并且这是一个不断重复的流程。用户需要构建的端到端的高速数据管道,简化流程并实现数据安全、高效的流动。

经过充分优化的 IBM Storage Scale System 可以充分发挥并行架构和高速网络的优势,加速各种 AI 工作负载应用,具备以下优势:

极致性能:提供业界领先的文件读写性能,目前单个 SSS 模块可提供超过 310 GB/s 的文件访问带宽和 13M IOPS,可扩展到上千个模块满足更高性能和容量的需求,同时内置的 Decluster RAID 技术可以最小化各种硬件故障对性能的影响;

认证支持:IBM Storage Scale 是 NVIDIA 官方认证支持 GPUDirect Storage 的存储技术,能够避免 GPU 的 I/O 瓶颈,帮助用户加速各种 AI 业务 和数据密集型应用,同时大幅度提升宝贵 GPU 资源的利用率;

全局访问:IBM Storage Scale 提供的全局数据平台访问能力,支持多种应用访问协议互通(如对象、容器、HDFS 等等)和不同存储环境,实现数据的整合和调度,结合其它存储设备(包括磁带)实现分层存储,降低数据总体拥有成本,提升端到端的数据处理效率;

安全弹性:提供端到端的全面数据安全弹性解决方案,包括完善的数据高可用和容灾解决方案,以及用于实现网络安全弹性的 Safeguarded Copy 和安全日志审计能力。

374743a4-0c74-11ef-a297-92fbcf53809c.png

图4:单个 IBM SSS 6000 模块性能实测结果

为了充分发挥 IBM Storage Scale 高带宽、低时延的优势,通常用户会采用支持 RDMA 的网络来进行数据访问,包括 InfiniBand 网络RoCE(RDMA over Converged Ethernet)网络。NVIDIA Spectrum-X 平台具备 NVIDIA 独有的 Adapt Routing 等专门面向 AI 的以太网网络优化技术,可以在大规模集群中充分发挥出存储系统的高带宽的性能,为客户打造高性能且稳定运行的 AI 集群提供稳定的网络基础。

以 AI 集群的数据业务流为例,数据从 GPU 显存到网络存储服务器的网络路径会经过 GPU 集群上存储平面的 Leaf 交换机到 Spine 交换机,再到 Leaf 交换机,最后连接到存储服务器;AI 存储业务是典型的大象流,传统的以太网交换机是基于流为粒度的负载分担,不难看出 GPU 集群内的 Leaf 层交换机和 Spine 交换机之间会有多条等价路径,包括 Leaf 到不同 Spine 的等价路径,也包括同一 Leaf 到 Spine 内多条链路的等价路径,但是由于写数据流 Hash key 值高度一致,导致,在 Leaf 层交换机不能将流充分的分配到不同的等价路径上,这样的技术对于目前大规模 AI 集群内的存储业务来说会影响存储数据流的传输带宽,即便存储系统本身性能强大,也会因为网络成为瓶颈而不能发挥出应有的性能;而当采用 Adapt Routing 技术之后,由于是基于数据包为粒度的转发机制,无论存储数据流的数量大小,都可以均匀的将流量转发到所有等价路径上,从而消除网络上的瓶颈,最大化的利用存储系统的性能,提升存储带宽、降低存储平面时延。这对基于以太网络构建 AI 集群极为重要。

3765c7e8-0c74-11ef-a297-92fbcf53809c.png

图5:开启 AR 和关闭 AR 的转发路径对比

为了展示 Spectrum-X 平台在存储领域内的实际效果,如下图所示,搭建一个 Demo 环境用于模拟 AI 存储应用的典型场景,采用 4 台搭载 NVIDIA BlueField-3 的服务器,两台计算节点配备 BlueField-3 DPU,两台存储节点配备 BlueField-3 SuperNIC,采用 6 台搭载 Spectrum-4 交换芯片的 SN5600 交换机组成典型的两层 Spine-Leaf 胖树网络;并且,BlueField DPU 和 SuperNIC 均为为双端口卡,每个端口连接到不同的 Leaf 交换机上,保证存储平面的高可靠,同时开启端口 Bonding,使得可以最大化利用端口性能。测试覆盖 2 打 1 和 2 打 2 两种场景,构造 RDMA 流量进行测试。

3791b7f4-0c74-11ef-a297-92fbcf53809c.png

图6:Spectrum-X 存储 AR 测试 Topo

在 2 打 1 和 2 打 2 的场景下,两个计算节点同时发送流量给一个或 2 个存储节点,模拟典型的存储写场景,对交换网络的影响。在测试过程中,分别开启 Adapt Routing 和关闭 Adapt Routing,收集接受端网络带宽,用于对比性能差异,测试如数据下图所示,可以清楚看到,开启 Adapt Routing 之后无论是 2 打 1,还是 2 打 2 场景,接受端网络带宽都已经接近物理带宽 95% 以上。在没有开启 Adapt Routing 测试用例,流量在交换机之间网络带宽利用率大幅下降,最终测试的带宽不足开启 Adapt Routing 的一半。从而可以看出,采用了 Adapt Routing 技术的 Spectrum-X 平台可以有效的解决存储网络内带宽瓶颈,充分发挥存储系统的性能,从而提升 AI 集群整体的效能。

37ae4270-0c74-11ef-a297-92fbcf53809c.png

图7:2 打 1 和 2 打 2 场景下开启 Adapt Routing

和 关闭 Adapt Routing 的带宽对比

通过和 NVIDIA 网络团队的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平台实现软件定义的数据基础架构,使得搭建在 Spectrum-X 平台上 IBM 的 Storage Scale 不仅可以面向云上应用提供基于以太网存储生态的多种服务,同时也可以大幅提升存储的性能,发挥出 IBM 的 Storage Scale 高吞吐大带宽的性能优势,满足 AI 时代云上高性能存储数据的要求。解决新一代以数据为中心的基础设施所面临的挑战和技术瓶颈,为 AI 云应用提供高性能的底座,帮助客户在混合云和 AI 时代实现竞争优势。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4979

    浏览量

    102994
  • 以太网交换机

    关注

    0

    文章

    124

    浏览量

    14240
  • 数据存储
    +关注

    关注

    5

    文章

    970

    浏览量

    50894
  • 人工智能
    +关注

    关注

    1791

    文章

    47200

    浏览量

    238268
  • 大数据
    +关注

    关注

    64

    文章

    8882

    浏览量

    137403

原文标题:NVIDIA Spectrum-X 助力 IBM 为 AI Cloud 提供高性能底座

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IBM与AMD携手部署MI300X加速器,强化AI与HPC能力

    举措预计将于2025年上半年正式推出。 此次合作的核心目标是提升通用人工智能(AI)模型的性能与能效,并为企业客户提供高性能计算(HPC)应用的强大支持。AMD的Instinct MI
    的头像 发表于 11-21 11:07 211次阅读

    NVIDIA AI助力初创企业心理治疗师提供AI工具

    NVIDIA AI 助力初创企业心理治疗师提供 AI 工具,以此来优化和提升心理健康服务水平,
    的头像 发表于 11-19 16:03 208次阅读

    NVIDIA助力xAI打造全球最大AI超级计算机

    NVIDIA 宣布,xAI 位于田纳西州孟菲斯市的Colossus 超级计算机集群达到了 10 万颗 NVIDIA Hopper GPU 的巨大规模。该集群使用了NVIDIA Spectru
    的头像 发表于 10-30 11:38 358次阅读

    NVIDIA Colossus超级计算机集群突破10万颗Hopper GPU

    的强大实力。 Colossus集群不仅规模庞大,更采用了NVIDIA Spectrum-X以太网网络平台。该平台专为多租户、超大规模的AI工厂打造,提供了卓越的RDMA(远程直接内存访
    的头像 发表于 10-30 10:29 296次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能     2024 年 10 月 28 日 —NVIDIA 宣布,xAI 位于
    发表于 10-30 09:33 142次阅读
    <b class='flag-5'>NVIDIA</b> 以太网加速 xAI 构建的全球最大 <b class='flag-5'>AI</b> 超级计算机

    NVIDIA新增生成式AI就绪系统认证类别

    借助全新的 NVIDIA Spectrum-X Ready 和 NVIDIA IGX 认证,领先的制造业合作伙伴将提供高性能系统,帮助客户轻
    的头像 发表于 10-10 09:44 361次阅读

    应用NVIDIA Spectrum-X网络构建新型主权AI

    法国云服务提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太网网络平台 构建区域性 GPU 集群,用户
    的头像 发表于 07-26 18:58 1171次阅读

    NVIDIA发布Omniverse微服务,物理AI提供超强助力

    NVIDIA Omniverse Cloud Sensor RTX生成用于加速自动驾驶汽车、机械臂、移动机器人、人形机器人和智能空间AI开发工作的合成数据   CVPR— NVIDIA
    发表于 06-18 16:35 510次阅读
    <b class='flag-5'>NVIDIA</b>发布Omniverse微服务,<b class='flag-5'>为</b>物理<b class='flag-5'>AI</b><b class='flag-5'>提供</b>超强<b class='flag-5'>助力</b>

    NVIDIA 通过 Holoscan NVIDIA IGX 提供企业软件支持

    和部署边缘 AI 解决方案。 NVIDIA AI Enterprise-IGX 是一款全新产品,其为企业的边缘计算软件堆栈提供前所未有的性能
    的头像 发表于 06-04 10:21 497次阅读

    NVIDIA Spectrum-X 以太网网络平台已被业界广泛使用

    云服务提供商、GPU 云提供商和企业用户纷纷采用 Spectrum-XNVIDIA 网络通过广大系统制造商进入各个市场。   NVIDIA
    的头像 发表于 06-03 18:20 965次阅读

    NVIDIA AI Enterprise荣获金奖

    NVIDIA AI Enterprise、GH200 Grace Hopper 超级芯片和 Spectrum-X 在 COMPUTEX 2024 获得认可。
    的头像 发表于 05-29 09:27 445次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise荣获金奖

    借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便 NVIDIA BlueField DPU 和 SuperNIC 创建
    的头像 发表于 05-29 09:22 486次阅读

    NVIDIA发布专为大规模AI量身订制的全新网络交换机-X800系列

    NVIDIA Quantum-X800 InfiniBand 网络和 NVIDIA Spectrum™-X800 以太网络是全球首批高达 8
    的头像 发表于 03-20 09:54 488次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA
    发表于 03-19 10:05 332次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    NVIDIA发布Omniverse Cloud API,众多工业数字孪生软件工具提供助力

    —— NVIDIA于今日宣布将以API形式提供Omniverse™ Cloud,将该全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展至整个软件制造商生态系统。   借助五
    发表于 03-19 09:40 462次阅读
    <b class='flag-5'>NVIDIA</b>发布Omniverse <b class='flag-5'>Cloud</b> API,<b class='flag-5'>为</b>众多工业数字孪生软件工具<b class='flag-5'>提供</b><b class='flag-5'>助力</b>