0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA Spectrum-X助力IBM为AI Cloud提供高性能底座

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-05-08 09:27 次阅读

在混合云与 AI 的时代,企业和组织需要创建、分析和保存海量的数据,在分布式的应用环境中会形成各种各样的数据孤岛,导致复杂系统难以管理,成本不断增加。为了能够更快速地从数据中获得所需的洞察力,其底层的信息架构必须支持混合云、大数据和人工智能(AI)工作负载以及传统应用,同时确保安全性、可靠性、数据效率和高性能,还需要能够无缝扩展来应对非结构化数据的飞速增长。

IBM Storage Scale 作为一种高性能的并行数据存储解决方案,可以帮助用户更快速地获得所需的计算或分析结果,管理快速扩展的数据和基础架构,同时确保数据安全性并降低总体存储成本。

36e6907c-0c74-11ef-a297-92fbcf53809c.png

图1:AI 与混合云对数据存储的需求

面对生成式 AI 的爆炸式发展,GPU 集群的运算性能至关重要,不仅需要更高的 GPU 的计算能力和更快的存储,同时需要专用的网络基础设施来确保多个节点并行的最佳性能。NVIDIA 开发了业界首款面向 AI 的以太网网络平台 - Spectrum-X ,旨在增强 AI 云的性能和效率。Spectrum-X 平台的核心是 NVIDIA Spectrum-4 以太网交换机NVIDIA BlueField-3 SuperNIC/DPUNVIDIA DOCA 软件栈及交换机软件栈NVIDIA LinkX 高品质互连设备,这种组合构成了 AI 加速计算网络架构的基础。NVIDIA 将 BlueField-3 SuperNIC 和 DPU 集成到其面向 AI 训练、推荐及推理等各种系统中,不仅满足以太网在多租户云上的各种需求,同时保证了 AI 集群最好的运算及存储性能。

3704076a-0c74-11ef-a297-92fbcf53809c.png

图2:NVIDIA Spectrum-X 平台介绍

在 AI 云存储平台的选择上,IBM Storage Scale 可提供经过验证的企业级数据平台。IBM Storage Scale 源自 GPFS,有超过 30 年的研发历史,在全球有大量成功部署的经验,广泛应用在业界超大规模和需求严苛的应用环境,包括过去几十年间全球性能最强的人工智能和高性能计算环境。

为了满足不同类型应用的数据访问需求,IBM Storage Scale 能够将文件、大数据分析、对象和容器应用的接口集成到一个统一的向外扩展的存储解决方案之中。它可为所有这些数据提供一个统一的命名空间,实现协议互通,并通过直观的图形用户界面(GUI)提供单点管理。通过对最终用户透明的存储策略,可对数据进行分层、压缩或迁移到磁带或云端,以降低成本;数据还可以分层到高性能数据存储介质,包括服务器缓存,进而降低延迟、提升性能。远程站点的智能数据缓存可确保借助活动文件管理(AFM)功能以本地读/写性能在地域分散的各个站点之间提供数据,不需要复制全部数据,减少数据传递的网络开销。

3723cd2a-0c74-11ef-a297-92fbcf53809c.png

图3:IBM Storage Scale 概览

对于 AI 集群应用来说,为了满足不断提高的算力和各种基础模型对更大参数规模的需要,也需要更高速的数据访问能力,避免因为存力不足导致的低效 I/O使得 GPU 无用武之地。由多台服务组成的 GPU 服务器集群需要数百 GBps 到数 TBps 的高速数据存储才能满足其对存力的需求;此外,为了提升 GPU 的应用效率,NVIDIA 开发了 GPUDirect Storage 技术,可以通过 RDMA 高速网络直接将数据从外部存储传输至 GPU 显存上,能有效减轻 CPU I/O 的瓶颈,提升 GPU 访问数据的带宽并大幅缩短通信延迟;此外,对于 AI 应用来说,从数据摄入到生产推理,每个环节都需要利用不同工具实现海量数据处理,并且这是一个不断重复的流程。用户需要构建的端到端的高速数据管道,简化流程并实现数据安全、高效的流动。

经过充分优化的 IBM Storage Scale System 可以充分发挥并行架构和高速网络的优势,加速各种 AI 工作负载应用,具备以下优势:

极致性能:提供业界领先的文件读写性能,目前单个 SSS 模块可提供超过 310 GB/s 的文件访问带宽和 13M IOPS,可扩展到上千个模块满足更高性能和容量的需求,同时内置的 Decluster RAID 技术可以最小化各种硬件故障对性能的影响;

认证支持:IBM Storage Scale 是 NVIDIA 官方认证支持 GPUDirect Storage 的存储技术,能够避免 GPU 的 I/O 瓶颈,帮助用户加速各种 AI 业务 和数据密集型应用,同时大幅度提升宝贵 GPU 资源的利用率;

全局访问:IBM Storage Scale 提供的全局数据平台访问能力,支持多种应用访问协议互通(如对象、容器、HDFS 等等)和不同存储环境,实现数据的整合和调度,结合其它存储设备(包括磁带)实现分层存储,降低数据总体拥有成本,提升端到端的数据处理效率;

安全弹性:提供端到端的全面数据安全弹性解决方案,包括完善的数据高可用和容灾解决方案,以及用于实现网络安全弹性的 Safeguarded Copy 和安全日志审计能力。

374743a4-0c74-11ef-a297-92fbcf53809c.png

图4:单个 IBM SSS 6000 模块性能实测结果

为了充分发挥 IBM Storage Scale 高带宽、低时延的优势,通常用户会采用支持 RDMA 的网络来进行数据访问,包括 InfiniBand 网络RoCE(RDMA over Converged Ethernet)网络。NVIDIA Spectrum-X 平台具备 NVIDIA 独有的 Adapt Routing 等专门面向 AI 的以太网网络优化技术,可以在大规模集群中充分发挥出存储系统的高带宽的性能,为客户打造高性能且稳定运行的 AI 集群提供稳定的网络基础。

以 AI 集群的数据业务流为例,数据从 GPU 显存到网络存储服务器的网络路径会经过 GPU 集群上存储平面的 Leaf 交换机到 Spine 交换机,再到 Leaf 交换机,最后连接到存储服务器;AI 存储业务是典型的大象流,传统的以太网交换机是基于流为粒度的负载分担,不难看出 GPU 集群内的 Leaf 层交换机和 Spine 交换机之间会有多条等价路径,包括 Leaf 到不同 Spine 的等价路径,也包括同一 Leaf 到 Spine 内多条链路的等价路径,但是由于写数据流 Hash key 值高度一致,导致,在 Leaf 层交换机不能将流充分的分配到不同的等价路径上,这样的技术对于目前大规模 AI 集群内的存储业务来说会影响存储数据流的传输带宽,即便存储系统本身性能强大,也会因为网络成为瓶颈而不能发挥出应有的性能;而当采用 Adapt Routing 技术之后,由于是基于数据包为粒度的转发机制,无论存储数据流的数量大小,都可以均匀的将流量转发到所有等价路径上,从而消除网络上的瓶颈,最大化的利用存储系统的性能,提升存储带宽、降低存储平面时延。这对基于以太网络构建 AI 集群极为重要。

3765c7e8-0c74-11ef-a297-92fbcf53809c.png

图5:开启 AR 和关闭 AR 的转发路径对比

为了展示 Spectrum-X 平台在存储领域内的实际效果,如下图所示,搭建一个 Demo 环境用于模拟 AI 存储应用的典型场景,采用 4 台搭载 NVIDIA BlueField-3 的服务器,两台计算节点配备 BlueField-3 DPU,两台存储节点配备 BlueField-3 SuperNIC,采用 6 台搭载 Spectrum-4 交换芯片的 SN5600 交换机组成典型的两层 Spine-Leaf 胖树网络;并且,BlueField DPU 和 SuperNIC 均为为双端口卡,每个端口连接到不同的 Leaf 交换机上,保证存储平面的高可靠,同时开启端口 Bonding,使得可以最大化利用端口性能。测试覆盖 2 打 1 和 2 打 2 两种场景,构造 RDMA 流量进行测试。

3791b7f4-0c74-11ef-a297-92fbcf53809c.png

图6:Spectrum-X 存储 AR 测试 Topo

在 2 打 1 和 2 打 2 的场景下,两个计算节点同时发送流量给一个或 2 个存储节点,模拟典型的存储写场景,对交换网络的影响。在测试过程中,分别开启 Adapt Routing 和关闭 Adapt Routing,收集接受端网络带宽,用于对比性能差异,测试如数据下图所示,可以清楚看到,开启 Adapt Routing 之后无论是 2 打 1,还是 2 打 2 场景,接受端网络带宽都已经接近物理带宽 95% 以上。在没有开启 Adapt Routing 测试用例,流量在交换机之间网络带宽利用率大幅下降,最终测试的带宽不足开启 Adapt Routing 的一半。从而可以看出,采用了 Adapt Routing 技术的 Spectrum-X 平台可以有效的解决存储网络内带宽瓶颈,充分发挥存储系统的性能,从而提升 AI 集群整体的效能。

37ae4270-0c74-11ef-a297-92fbcf53809c.png

图7:2 打 1 和 2 打 2 场景下开启 Adapt Routing

和 关闭 Adapt Routing 的带宽对比

通过和 NVIDIA 网络团队的合作,采用 IBM Storage Scale 和 NVIDIA Spectrum-X 平台实现软件定义的数据基础架构,使得搭建在 Spectrum-X 平台上 IBM 的 Storage Scale 不仅可以面向云上应用提供基于以太网存储生态的多种服务,同时也可以大幅提升存储的性能,发挥出 IBM 的 Storage Scale 高吞吐大带宽的性能优势,满足 AI 时代云上高性能存储数据的要求。解决新一代以数据为中心的基础设施所面临的挑战和技术瓶颈,为 AI 云应用提供高性能的底座,帮助客户在混合云和 AI 时代实现竞争优势。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4681

    浏览量

    102106
  • 以太网交换机

    关注

    0

    文章

    121

    浏览量

    14128
  • 数据存储
    +关注

    关注

    5

    文章

    928

    浏览量

    50688
  • 人工智能
    +关注

    关注

    1781

    文章

    44953

    浏览量

    232367
  • 大数据
    +关注

    关注

    64

    文章

    8737

    浏览量

    136802

原文标题:NVIDIA Spectrum-X 助力 IBM 为 AI Cloud 提供高性能底座

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

    关系进一步深化。助力生成式 AI 的企业级应用与发展加速驶入快车道。 HPE Private Cloud AI 是该解决方案的关键,开创性地将 NV
    的头像 发表于 06-20 17:36 438次阅读

    NVIDIA发布Omniverse微服务,为物理AI提供超强助力

    NVIDIA Omniverse Cloud Sensor RTX生成用于加速自动驾驶汽车、机械臂、移动机器人、人形机器人和智能空间AI开发工作的合成数据   CVPR— NVIDIA
    发表于 06-18 16:35 302次阅读
    <b class='flag-5'>NVIDIA</b>发布Omniverse微服务,为物理<b class='flag-5'>AI</b><b class='flag-5'>提供</b>超强<b class='flag-5'>助力</b>

    NVIDIA Spectrum-X 以太网网络平台已被业界广泛使用

    云服务提供商、GPU 云提供商和企业用户纷纷采用 Spectrum-XNVIDIA 网络通过广大系统制造商进入各个市场。   NVIDIA
    的头像 发表于 06-03 18:20 716次阅读

    NVIDIA AI Enterprise荣获金奖

    NVIDIA AI Enterprise、GH200 Grace Hopper 超级芯片和 Spectrum-X 在 COMPUTEX 2024 获得认可。
    的头像 发表于 05-29 09:27 212次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise荣获金奖

    借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 204次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA Spectrum-X
    发表于 03-19 10:05 179次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    NVIDIA全新AI以太网络平台大幅提升AI性能

    NVIDIA 近日宣布,三家头部系统制造商将率先在其服务器产品阵容中集成专为 AI 量身定制的 NVIDIA Spectrum-X™ 以太网络技术,帮助企业客户加速生成式
    的头像 发表于 11-27 14:31 525次阅读

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    基于最新 NVIDIA Spectrum-X 网络端到端平台,助力客户通过 AI 实现业务转型 NVIDIA 今日宣布,戴尔科技、慧与和联想
    的头像 发表于 11-21 21:50 383次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太网络平台

    戴尔科技、慧与和联想即将推出 NVIDIA 全新 AI 以太网络平台

    基于最新 NVIDIA Spectrum-X 网络端到端平台, 助力客户通过 AI 实现业务转型   NVIDIA 今日宣布, 戴尔科技、慧
    发表于 11-21 18:18 174次阅读
    戴尔科技、慧与和联想即将推出 <b class='flag-5'>NVIDIA</b> 全新 <b class='flag-5'>AI</b> 以太网络平台

    NVIDIA 人工智能开讲 | 什么是 Spectrum-X 网络平台?

    ”两大音频 APP 上搜索“ NVIDIA 人工智能开讲 ”专辑,众多技术大咖带你深度剖析核心技术,把脉未来科技发展方向! 随着生成式 AI 成为热门话题,生成式 AI 所需要的基础设施 —— 数据中心正在发挥着至关重要的作用
    的头像 发表于 11-06 20:25 477次阅读
    <b class='flag-5'>NVIDIA</b> 人工智能开讲 | 什么是 <b class='flag-5'>Spectrum-X</b> 网络平台?

    全新NVIDIA Spectrum-X网络平台构筑阿里生成式AI底座

    全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI底座
    的头像 发表于 11-02 09:07 469次阅读
    全新<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Spectrum-X</b>网络平台构筑阿里生成式<b class='flag-5'>AI</b>云<b class='flag-5'>底座</b>

    阿里云与 NVIDIA 合作测试以太网络新架构

    全新 NVIDIA Spectrum-X 网络平台构筑阿里生成式 AI底座 随着生成式 AI 的热潮席卷全球,用于训练生成式
    的头像 发表于 11-01 09:30 219次阅读

    NVIDIA AI 现已在 Oracle Cloud Marketplace 推出

    只需点点手指,即可访问高性能加速计算和软件,以运行安全、稳定且得到支持的生产级 AI。 这一业内首创的扩展为 Oracle Cloud 上的端到端开发和部署带来了新功能。企业可以从 Oracle
    的头像 发表于 10-24 10:30 290次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> 现已在 Oracle <b class='flag-5'>Cloud</b> Marketplace 推出

    CLOUD4Y加速云存储LSI的高性能解决方案

    电子发烧友网站提供CLOUD4Y加速云存储LSI的高性能解决方案.pdf》资料免费下载
    发表于 08-23 10:35 0次下载
    <b class='flag-5'>CLOUD</b>4Y加速云存储LSI的<b class='flag-5'>高性能</b>解决方案

    IBM Cloud Carbon Calculator 正式上市,助力企业实现可持续发展目标,减少温室气体排放

    Carbon Calculator 是一款融合了 AI 能力的仪表板,旨在帮助客户访问其 IBM Cloud 工作负载(如人工智能、高性能计算和金融服务)的排放数据。  各行各业都在
    的头像 发表于 07-28 14:10 351次阅读
    <b class='flag-5'>IBM</b> <b class='flag-5'>Cloud</b> Carbon Calculator 正式上市,<b class='flag-5'>助力</b>企业实现可持续发展目标,减少温室气体排放