0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达网络 2024-05-29 09:22 次阅读

NVIDIA DOCA 加速框架开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。DOCA 2.7是一个全面且功能丰富的版本,进一步拓展了 DOCA 软件框架的范围和价值,它提供了几个新的库、一站式应用和功能齐全的服务。

DOCA 2.7 扩展了 BlueField DPU 在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心,并加速了 NVIDIA Spectrum-X 网络平台,为 AI 工作负载提供了卓越的性能。

本文将详细介绍该版本的以下亮点:

借助 BlueField-3 SuperNIC 支持 Spectrum-X RA 1.0.1

DOCA PCC、DOCA Flow 和 OVS DOCA 增强功能

更新的 AI 云流量加密 – IPsec 功能的发布、PSP 功能的支持(测试版)

新的 DOCA 库

DOCA 服务增强功能

新增的 DOCA 管理服务(DMS)

借助 BlueField-3 SuperNIC 的

NVIDIA Spectrum-X RA 1.0.1

DOCA 2.7 为以太网 AI 云部署启用了NVIDIA Spectrum-X 1.0.1(SPC-X 1.0.1)参考架构。此架构经过严格测试,并优化了 BlueField SuperNIC 和 Spectrum SN5600 交换机的功能,可加速和管理 AI 集群中的东西向以太网流量。

适用于 BlueField-3 SuperNIC 的 DOCA 2.7 的新功能包括:

使用自动态路由和 DOCA 可编程拥塞控制(PCC)的无损 RoCE

DOCA-PCC 针对在 SPC-X 1.0.1 上运行的 AI 工作负载进行了优化

BlueField SuperNIC 默认为 NIC 模式

目前,此架构正在被多个 AI 云 CSP 广泛采用。

DOCA-PCC

DOCA PCC 库提供了高级编程接口,使您能够实现自己定制的拥塞控制(CC)算法。该库利用 NVIDIA BlueField-3 SuperNIC 加速来管理 CC,并提供可简化硬件复杂性的 API,从而使您能够专注于 CC 算法的功能实现。

DOCA PCC 还提供了开发最佳解决方案的灵活性,以处理和避免集群中的网络拥塞。每个网络都是不同的,并非所有网络都可以使用标准的现有拥塞控制解决方案。定制的拥塞控制对于 AI 工作流程至关重要,能够实现性能隔离、提高公平性和持续的低时延,同时防止在无损网络上发生丢包。

DOCA 2.7 提供了一系列旨在优化拥塞控制的功能。这些功能有助于监控网络性能、诊断问题和收集遥测数据。例如,在发生拥塞相关事件时,可以使用 Notification Point (NP)可编程性触发警报或操作。DOCA 2.7 还支持多个探针数据包,用于监控和遥测的数据包,以及增强网络可见性。

虽然这些功能不仅限于拥塞控制,但它们有助于诊断与拥塞相关的问题并改善整体网络运行状况。此外,通过监控 Spectrum 交换机可以获得的其他遥测信息,例如端口速度容量信息可以降低端口超额认购的可能性。跟踪网卡(端点)端口发送/接收(Tx/Rx)的字节有助于揭示拥塞的模式。

VirtIO-net 设备

DOCA 2.7 现在可为BlueField-3 DPU提供高达 2000 个功能 VirtIO-net 设备。此能力非常适合需要许多可用的低容量和低使用率活动设备(例如,需要网页访问多个端点)的情况。采用公共云/私有云的 CSP 和企业可以使用此功能来帮助扩展多租户环境。

DOCA Flow

DOCA Flow 提供了构建块来简化软件定义网络和软件定义安全相关的网络应用程序开发,从而将这些功能卸载、加速和隔离到 BlueField-3 DPU。作为用于卸载和加速网络转向流水线的转向库,DOCA Flow 实现了软件定义网络(SDN)服务的快速流水线可编程性。

DOCA 2.7 新增的 DOCA Flow 功能包括:

DOCA 连接跟踪(CT),可提高流水线的性能、效率和灵活性

用于调试的 DOCA Flow 流水线可视化 (Alpha)

LPM 管道增强,支持基于 VLAN 的流量

作为 DOCA 开发的核心,对 DOCA Flow 的变更专注于提高功能性能和用户体验,借助 DOCA-FLOW 应用程序实现更大规模和更好的性能,并为 DOCA-FLOW 开发者提供调试和性能工具。

OVS DOCA

OVS DOCA是一款针对 NVIDIA 网络服务进行高度优化的虚拟交换机。这是一种非常高效的设计,可使用 NVIDIA 网卡或 DPU 提升新一代性能和扩展性。OVS DOCA 基于 Open vSwitch,提供相同的北向 API、OpenFlow、CLI 和数据接口,确保成为 OVS 的直接替代方案。

OVS DOCA 能够更快地实现 NVIDIA 未来的创新网络功能。作为一项提供源代码的可定制服务,OVS DOCA 为 HBN 和其他适用于以太网交换的 NVIDIA 服务提供支持。

DOCA 2.7 包含多项增强功能,可进一步优化 OVS-DOCA。例如,DOCA 使您能够统一多个端口的代表口(representor),从而提供更好的资源利用率和扩展性。这意味着通过统一的代表口,可以更高效地管理更多端口,从而减少开销并简化配置。反过来,处理多个端口的单个代表口有助于实现更好的可扩展性。这对于大规模部署至关重要。

此外,发卡(hairpin)卸载功能可优化同一主机上虚拟机(VM)或容器之间的流量。这消除了将流量从外部路由到物理主机的需求,降低了时延,并促进了更快的数据交换,从而最终提高整体系统性能。

DOCA 2.7 的另一项新功能名为慢速路径计量(Slow Path Metering),可监视和控制非加速流量。这提高了安全性和资源优化,并为管理员提供了细粒度的控制,以便为特定类型的流量设置策略,从而定制网络行为。

DOCA 基于主机的网络

HBN是一项 DOCA 服务,使网络架构师能够完全基于三层(L3)协议来设计网络。这使得路由能够通过使用 DPU 作为 BGP 路由器,并在网络的服务器端(而不是在交换机上)运行。HBN 支持的 BGP EVPN 扩展可将 L3 底层网络扩展到具有 Overlay 二层(L2)和三层(L3)隔离网络的多租户环境。

HBN 解决方案将一组网络功能封装在一个容器内,而容器本身则封装为一个在 DPU 上运行的服务 Pod。这对裸金属 CSP、电信公司和企业客户非常有用。

DOCA 2.7 中的 HBN 新增功能包括:

对单端口 BlueField-3 SuperNIC 的支持

为本地 VRF 路由泄漏提供正式发布(GA)级支持

用于对称 EVPN 路由泄露的 EVPN 下游 VNI(DVNI)

具有 VRF-Lite 的 3 层 VLAN 子接口

BlueField 上行链路上的网络到网络的发夹路由支持

对二层(L2)VXLAN 上的有状态 ACL 的正式发布(GA)级支持

在面向主机接口上对 VLAN trunk 的初始支持

此更新通过单端口 BlueField SuperNIC 启用 GPU E/W 网络架构用例,提供了多项直接优势。

DOCA 2.7 功能不仅提高了隔离租户的共享服务和互联网访问的可扩展性和效率,而且还使 BlueField DPU 能够用作 EVPN overlay 网关。这为多租户云提供了外部连接。

DOCA SNAP 零拷贝静态加密

在 BlueField-3 上的DOCA SNAP v4 服务中添加了在线 AES-XTS 卸载功能。AES-XTS 是一种事实上的加密算法,用于保护存储设备上静态数据的机密性。现在,SNAP 可以在硬件中加速 AES-XTS 加密,从而优化和改进加密过程,同时降低 CPU 开销。

基于 AES-XTS 的 SNAP 静态数据加密,现已对零复制的 SPDK API 和 SNAP RPC 可用,这意味着可以对存储的数据进行加密和解密,而无需在内存中复制额外的副本。典型客户包括寻求使用新一代 DDR、LPDDR、GDDR 和 HBM 内存接口来提高性能的客户。

DOCA 2.7 新增的 DOCA SNAP 功能包括:

BlueField-3 支持 SNAP v4 服务

使用 SPDK API 为每个命名空间提供不同的加密密钥

支持 NVMe-oF RDMA/RoCE

与作为旁路的其他标准和非标准协议相集成

DOCA Firefly

DOCA Firefly 服务利用 NVIDIA DPU 的硬件加速提供精确的时间同步服务。DOCA Firefly 现在包括行业特定的配置文件,以改善用户体验并简化部署。除了现有的媒体行业配置文件外,DOCA 2.7 现在还提供电信行业配置文件,包括行业特定的功能和定制的性能参数。

这项服务已为电信、媒体和娱乐及金融服务等众多行业客户所采用。目前,它用于推动 MSG-Sphere 的严格计时要求。

AI 云流量加密和解密

DOCA 2.7 包括 DOCA IPsec 的修订版(现已正式发布),以及引入了 DOCA PSP 功能。

在 BlueField DPU 上运行的 DOCA 可以通过多种方式改进 IPsec 流程,同时加速网络流量的加密和解密。在此版本的新增中,DOCA Flow 现在可以支持所有 IPsec 模式和选项,同时提供 IPsec 协议的全面加速。

其他功能包括:

IPsec 正式发布

多线程支持

提高插入率

删除 DOCA IPsec 库并将其功能合并到 DOCA Flow 的 API 更新中

PSP是 Google 发布的一种新的网络安全协议。此版本是首个支持 PSP 的版本(技术预览版),通过 DOCA Flow 和在线 PSP 封装及硬件中的加密/解密来全面加速 PSP 协议。与 IPsec 相比,PSP 特别适合在大规模 AI 云中使用。

这些功能的示例用例包括:

北南向 AI 云网络加密

东西向 AI 云 GPU 到 GPU 流量

非 AI 云节点到节点加密

DOCA UROM 和 DOCA DevEmu

新的DOCA UROM库和服务支持卸载高性能计算(HPC)和 AI 工作负载。具体来说,HPC 的计算由主机执行,同时 HPC 的通信由 BlueField DPU 加速和卸载。这有助于优化 CPU 利用率,为 AI 训练和推理以及 HPC 应用程序提供性能提升。

DOCA 设备仿真库(DOCA DevEmu)使您能够在 BlueField DPU 上仿真自定义设备,并从主机通过 PCI 连接到该设备。这提供了几个优势,其中最重要的优势就是可以访问与卸载或加速相关的其他功能,但无需主机应用程序直接使用 DOCA API。

适用于 DPU 的 DOCA 通信通道

DOCA 通信通道(Comm Channel)在不受信任的主机客户端应用程序和 BlueField 软件服务之间提供增强的硬件隔离通信。它支持创新的安全和存储卸载服务。

DOCA 管理服务

DOCA 管理服务是一项 DOCA 2.7 新增的 DOCA 服务,可使用标准配置接口(API/CLI)简化 BlueField 的启动后配备和配置。

主要优势:

为所有工具提供相同的 API,无需了解所有工具及其不同的语法。

无需深入了解低级硬件细节,即可配置 NVIDIA 网卡。

使用行业标准配置接口(CLI 和 API)和数据模型(例如 gRPC/gNMI 和 OpenConfig),以确保更好的互操作性和易于集成。

通过专为与外部自动化系统和工具无缝集成而设计的强大 API,简化 DPU 管理任务的自动化。

总结

NVIDIA DOCA 框架能够利用行业标准 API 在 BlueField 网络平台上快速创建和管理应用程序和服务。借助 DOCA,开发者可以利用 NVIDIA BlueField DPU 和 SuperNIC 的强大功能,实现突破性的网络、安全和存储性能。

DOCA 2.7 中的新功能在 AI 云数据中心中通过 BlueField DPU 和 SuperNIC 提供的功能和优势来扩展其更广泛的价值。最近的增强功能不仅有助于为 AI 工作负载提供卓越的性能,而且还增加了扩展的安全和网络功能。这些改进相结合,为开发者提供了一个强大的平台。DOCA 2.7 还通过 BlueField-3 SuperNIC 支持 NVIDIA Spectrum-X 参考架构。


审核编辑:刘清
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5371

    浏览量

    171032
  • NVIDIA
    +关注

    关注

    14

    文章

    4929

    浏览量

    102788
  • VLAN
    +关注

    关注

    1

    文章

    273

    浏览量

    35569
  • DPU
    DPU
    +关注

    关注

    0

    文章

    354

    浏览量

    24123

原文标题:借助 NVIDIA DOCA 2.7 增强 AI 云数据中心和 NVIDIA Spectrum-X

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA向开放计算项目捐赠Blackwell平台设计

    近日,在美国加利福尼亚州举行的 OCP 全球峰会上,NVIDIA 宣布已把 NVIDIA Blackwell 加速计算平台的一些基础元素捐赠给开放计算项目(OCP),并扩大 NVIDIA Sp
    的头像 发表于 11-19 15:30 103次阅读

    NVIDIA DOCA-OFED的主要特性

    NVIDIA DOCA 软件平台释放了 NVIDIA BlueField 网络平台的潜力,并为NVIDIA BlueField和ConnectX设备提供了所需的所有主机驱动程序。
    的头像 发表于 11-09 13:50 167次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算机

    NVIDIA Spectrum-X 使基于 NVIDIA Hopper 十万卡 GPU 的巨型系统成为可能     2024 年 10 月 28 日 —NVIDIA 宣布,xAI 位于
    发表于 10-30 09:33 117次阅读
    <b class='flag-5'>NVIDIA</b> 以太网加速 xAI 构建的全球最大 <b class='flag-5'>AI</b> 超级计算机

    NVIDIA新增生成式AI就绪系统认证类别

    借助全新的 NVIDIA Spectrum-X Ready 和 NVIDIA IGX 认证,领先的制造业合作伙伴将提供高性能系统,帮助客户轻松部署
    的头像 发表于 10-10 09:44 320次阅读

    IB Verbs和NVIDIA DOCA GPUNetIO性能测试

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一个库,专门为实时在线 GPU 数据包处理而设计。它结合了
    的头像 发表于 08-23 17:03 491次阅读
    IB Verbs和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> GPUNetIO性能测试

    借助NVIDIA NIM加速AI应用部署

    大语言模型(LLM)在企业组织中的应用日益广泛,许多企业都将其整合到 AI 应用中。虽然从基础模型着手十分高效,但需要花费一定的精力才能将它们整合到生产就绪型环境中。NVIDIA NIM简化了这一过程,使企业能够在数据中心
    的头像 发表于 08-23 16:38 355次阅读
    <b class='flag-5'>借助</b><b class='flag-5'>NVIDIA</b> NIM加速<b class='flag-5'>AI</b>应用部署

    应用NVIDIA Spectrum-X网络构建新型主权AI

    法国服务提供商 Scaleway 正在基于 NVIDIA 的 Hopper GPU和 Spectrum-X 以太网网络平台 构建区域性 GPU 集群,为用户提供 AI 按需服务业
    的头像 发表于 07-26 18:58 1137次阅读

    NVIDIA Spectrum-X 以太网网络平台已被业界广泛使用

    服务提供商、GPU 提供商和企业用户纷纷采用 Spectrum-XNVIDIA 网络通过广大系统制造商进入各个市场。   NVIDIA
    的头像 发表于 06-03 18:20 925次阅读

    NVIDIA为新工业革命打造 AI 工厂和数据中心

    搭载 Grace CPU 以及 NVIDIA 网络和基础设施,助力于企业建立 AI 工厂和数据中心,推动新一轮生成式 AI 突破。 NVIDIA
    的头像 发表于 06-03 18:14 954次阅读

    NVIDIA AI Enterprise荣获金奖

    NVIDIA AI Enterprise、GH200 Grace Hopper 超级芯片和 Spectrum-X 在 COMPUTEX 2024 获得认可。
    的头像 发表于 05-29 09:27 413次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Enterprise荣获金奖

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA Quantum-X800 InfiniBand 网络,打造性能最强大的 AI 专用基础设施 NVIDIA Spectrum-X
    发表于 03-19 10:05 311次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 GPU 计算和 <b class='flag-5'>AI</b> 基础设施

    基于NVIDIA DOCA 2.6实现高性能和安全的AI设计

    作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在
    的头像 发表于 02-23 10:02 427次阅读

    NVIDIA DOCA 2.5 长期支持版本发布

    正值 NVIDIA DOCA 面世三周年之际,NVIDIA 于近日发布了适用于 NVIDIA BlueField-3 网络平台的 NVIDIA
    的头像 发表于 12-26 18:25 384次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 2.5 长期支持版本发布

    借助 NVIDIA NVUE 和 Ansible 实现数据中心网络自动化

    数据中心自动化可以追溯到大型机的早期,运营效率是其优势之一。多年来,数据中心内外的技术都发生了变化。因此,工具和方法也发生了变化。 NVIDIA NVUE Collection 和 Ansible
    的头像 发表于 12-20 19:35 479次阅读
    <b class='flag-5'>借助</b> <b class='flag-5'>NVIDIA</b> NVUE 和 Ansible 实现<b class='flag-5'>数据中心</b>网络自动化

    NVIDIA全新AI以太网络平台大幅提升AI性能

    NVIDIA 近日宣布,三家头部系统制造商将率先在其服务器产品阵容中集成专为 AI 量身定制的 NVIDIA Spectrum-X™ 以太网络技术,帮助企业客户加速生成式
    的头像 发表于 11-27 14:31 765次阅读