NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。DOCA 2.7是一个全面且功能丰富的版本,进一步拓展了 DOCA 软件框架的范围和价值,它提供了几个新的库、一站式应用和功能齐全的服务。
DOCA 2.7 扩展了 BlueField DPU 在数据中心内卸载、加速和隔离网络、存储、安全和管理基础设施方面所发挥的作用。该版本还进一步增强了 AI 云数据中心,并加速了 NVIDIA Spectrum-X 网络平台,为 AI 工作负载提供了卓越的性能。
本文将详细介绍该版本的以下亮点:
借助 BlueField-3 SuperNIC 支持 Spectrum-X RA 1.0.1
DOCA PCC、DOCA Flow 和 OVS DOCA 增强功能
更新的 AI 云流量加密 – IPsec 功能的发布、PSP 功能的支持(测试版)
新的 DOCA 库
DOCA 服务增强功能
新增的 DOCA 管理服务(DMS)
借助 BlueField-3 SuperNIC 的
NVIDIA Spectrum-X RA 1.0.1
DOCA 2.7 为以太网 AI 云部署启用了NVIDIA Spectrum-X 1.0.1(SPC-X 1.0.1)参考架构。此架构经过严格测试,并优化了 BlueField SuperNIC 和 Spectrum SN5600 交换机的功能,可加速和管理 AI 集群中的东西向以太网流量。
适用于 BlueField-3 SuperNIC 的 DOCA 2.7 的新功能包括:
使用自动态路由和 DOCA 可编程拥塞控制(PCC)的无损 RoCE
DOCA-PCC 针对在 SPC-X 1.0.1 上运行的 AI 工作负载进行了优化
BlueField SuperNIC 默认为 NIC 模式
目前,此架构正在被多个 AI 云 CSP 广泛采用。
DOCA-PCC
DOCA PCC 库提供了高级编程接口,使您能够实现自己定制的拥塞控制(CC)算法。该库利用 NVIDIA BlueField-3 SuperNIC 加速来管理 CC,并提供可简化硬件复杂性的 API,从而使您能够专注于 CC 算法的功能实现。
DOCA PCC 还提供了开发最佳解决方案的灵活性,以处理和避免集群中的网络拥塞。每个网络都是不同的,并非所有网络都可以使用标准的现有拥塞控制解决方案。定制的拥塞控制对于 AI 工作流程至关重要,能够实现性能隔离、提高公平性和持续的低时延,同时防止在无损网络上发生丢包。
DOCA 2.7 提供了一系列旨在优化拥塞控制的功能。这些功能有助于监控网络性能、诊断问题和收集遥测数据。例如,在发生拥塞相关事件时,可以使用 Notification Point (NP)可编程性触发警报或操作。DOCA 2.7 还支持多个探针数据包,用于监控和遥测的数据包,以及增强网络可见性。
虽然这些功能不仅限于拥塞控制,但它们有助于诊断与拥塞相关的问题并改善整体网络运行状况。此外,通过监控 Spectrum 交换机可以获得的其他遥测信息,例如端口速度容量信息可以降低端口超额认购的可能性。跟踪网卡(端点)端口发送/接收(Tx/Rx)的字节有助于揭示拥塞的模式。
VirtIO-net 设备
DOCA 2.7 现在可为BlueField-3 DPU提供高达 2000 个功能 VirtIO-net 设备。此能力非常适合需要许多可用的低容量和低使用率活动设备(例如,需要网页访问多个端点)的情况。采用公共云/私有云的 CSP 和企业可以使用此功能来帮助扩展多租户环境。
DOCA Flow
DOCA Flow 提供了构建块来简化软件定义网络和软件定义安全相关的网络应用程序开发,从而将这些功能卸载、加速和隔离到 BlueField-3 DPU。作为用于卸载和加速网络转向流水线的转向库,DOCA Flow 实现了软件定义网络(SDN)服务的快速流水线可编程性。
DOCA 2.7 新增的 DOCA Flow 功能包括:
DOCA 连接跟踪(CT),可提高流水线的性能、效率和灵活性
用于调试的 DOCA Flow 流水线可视化 (Alpha)
LPM 管道增强,支持基于 VLAN 的流量
作为 DOCA 开发的核心,对 DOCA Flow 的变更专注于提高功能性能和用户体验,借助 DOCA-FLOW 应用程序实现更大规模和更好的性能,并为 DOCA-FLOW 开发者提供调试和性能工具。
OVS DOCA
OVS DOCA是一款针对 NVIDIA 网络服务进行高度优化的虚拟交换机。这是一种非常高效的设计,可使用 NVIDIA 网卡或 DPU 提升新一代性能和扩展性。OVS DOCA 基于 Open vSwitch,提供相同的北向 API、OpenFlow、CLI 和数据接口,确保成为 OVS 的直接替代方案。
OVS DOCA 能够更快地实现 NVIDIA 未来的创新网络功能。作为一项提供源代码的可定制服务,OVS DOCA 为 HBN 和其他适用于以太网交换的 NVIDIA 服务提供支持。
DOCA 2.7 包含多项增强功能,可进一步优化 OVS-DOCA。例如,DOCA 使您能够统一多个端口的代表口(representor),从而提供更好的资源利用率和扩展性。这意味着通过统一的代表口,可以更高效地管理更多端口,从而减少开销并简化配置。反过来,处理多个端口的单个代表口有助于实现更好的可扩展性。这对于大规模部署至关重要。
此外,发卡(hairpin)卸载功能可优化同一主机上虚拟机(VM)或容器之间的流量。这消除了将流量从外部路由到物理主机的需求,降低了时延,并促进了更快的数据交换,从而最终提高整体系统性能。
DOCA 2.7 的另一项新功能名为慢速路径计量(Slow Path Metering),可监视和控制非加速流量。这提高了安全性和资源优化,并为管理员提供了细粒度的控制,以便为特定类型的流量设置策略,从而定制网络行为。
DOCA 基于主机的网络
HBN是一项 DOCA 服务,使网络架构师能够完全基于三层(L3)协议来设计网络。这使得路由能够通过使用 DPU 作为 BGP 路由器,并在网络的服务器端(而不是在交换机上)运行。HBN 支持的 BGP EVPN 扩展可将 L3 底层网络扩展到具有 Overlay 二层(L2)和三层(L3)隔离网络的多租户环境。
HBN 解决方案将一组网络功能封装在一个容器内,而容器本身则封装为一个在 DPU 上运行的服务 Pod。这对裸金属 CSP、电信公司和企业客户非常有用。
DOCA 2.7 中的 HBN 新增功能包括:
对单端口 BlueField-3 SuperNIC 的支持
为本地 VRF 路由泄漏提供正式发布(GA)级支持
用于对称 EVPN 路由泄露的 EVPN 下游 VNI(DVNI)
具有 VRF-Lite 的 3 层 VLAN 子接口
BlueField 上行链路上的网络到网络的发夹路由支持
对二层(L2)VXLAN 上的有状态 ACL 的正式发布(GA)级支持
在面向主机接口上对 VLAN trunk 的初始支持
此更新通过单端口 BlueField SuperNIC 启用 GPU E/W 网络架构用例,提供了多项直接优势。
DOCA 2.7 功能不仅提高了隔离租户的共享服务和互联网访问的可扩展性和效率,而且还使 BlueField DPU 能够用作 EVPN overlay 网关。这为多租户云提供了外部连接。
DOCA SNAP 零拷贝静态加密
在 BlueField-3 上的DOCA SNAP v4 服务中添加了在线 AES-XTS 卸载功能。AES-XTS 是一种事实上的加密算法,用于保护存储设备上静态数据的机密性。现在,SNAP 可以在硬件中加速 AES-XTS 加密,从而优化和改进加密过程,同时降低 CPU 开销。
基于 AES-XTS 的 SNAP 静态数据加密,现已对零复制的 SPDK API 和 SNAP RPC 可用,这意味着可以对存储的数据进行加密和解密,而无需在内存中复制额外的副本。典型客户包括寻求使用新一代 DDR、LPDDR、GDDR 和 HBM 内存接口来提高性能的客户。
DOCA 2.7 新增的 DOCA SNAP 功能包括:
BlueField-3 支持 SNAP v4 服务
使用 SPDK API 为每个命名空间提供不同的加密密钥
支持 NVMe-oF RDMA/RoCE
与作为旁路的其他标准和非标准协议相集成
DOCA Firefly
DOCA Firefly 服务利用 NVIDIA DPU 的硬件加速提供精确的时间同步服务。DOCA Firefly 现在包括行业特定的配置文件,以改善用户体验并简化部署。除了现有的媒体行业配置文件外,DOCA 2.7 现在还提供电信行业配置文件,包括行业特定的功能和定制的性能参数。
这项服务已为电信、媒体和娱乐及金融服务等众多行业客户所采用。目前,它用于推动 MSG-Sphere 的严格计时要求。
AI 云流量加密和解密
DOCA 2.7 包括 DOCA IPsec 的修订版(现已正式发布),以及引入了 DOCA PSP 功能。
在 BlueField DPU 上运行的 DOCA 可以通过多种方式改进 IPsec 流程,同时加速网络流量的加密和解密。在此版本的新增中,DOCA Flow 现在可以支持所有 IPsec 模式和选项,同时提供 IPsec 协议的全面加速。
其他功能包括:
IPsec 正式发布
多线程支持
提高插入率
删除 DOCA IPsec 库并将其功能合并到 DOCA Flow 的 API 更新中
PSP是 Google 发布的一种新的网络安全协议。此版本是首个支持 PSP 的版本(技术预览版),通过 DOCA Flow 和在线 PSP 封装及硬件中的加密/解密来全面加速 PSP 协议。与 IPsec 相比,PSP 特别适合在大规模 AI 云中使用。
这些功能的示例用例包括:
北南向 AI 云网络加密
东西向 AI 云 GPU 到 GPU 流量
非 AI 云节点到节点加密
DOCA UROM 和 DOCA DevEmu
新的DOCA UROM库和服务支持卸载高性能计算(HPC)和 AI 工作负载。具体来说,HPC 的计算由主机执行,同时 HPC 的通信由 BlueField DPU 加速和卸载。这有助于优化 CPU 利用率,为 AI 训练和推理以及 HPC 应用程序提供性能提升。
DOCA 设备仿真库(DOCA DevEmu)使您能够在 BlueField DPU 上仿真自定义设备,并从主机通过 PCI 连接到该设备。这提供了几个优势,其中最重要的优势就是可以访问与卸载或加速相关的其他功能,但无需主机应用程序直接使用 DOCA API。
适用于 DPU 的 DOCA 通信通道
DOCA 通信通道(Comm Channel)在不受信任的主机客户端应用程序和 BlueField 软件服务之间提供增强的硬件隔离通信。它支持创新的安全和存储卸载服务。
DOCA 管理服务
DOCA 管理服务是一项 DOCA 2.7 新增的 DOCA 服务,可使用标准配置接口(API/CLI)简化 BlueField 的启动后配备和配置。
主要优势:
为所有工具提供相同的 API,无需了解所有工具及其不同的语法。
无需深入了解低级硬件细节,即可配置 NVIDIA 网卡。
使用行业标准配置接口(CLI 和 API)和数据模型(例如 gRPC/gNMI 和 OpenConfig),以确保更好的互操作性和易于集成。
通过专为与外部自动化系统和工具无缝集成而设计的强大 API,简化 DPU 管理任务的自动化。
总结
NVIDIA DOCA 框架能够利用行业标准 API 在 BlueField 网络平台上快速创建和管理应用程序和服务。借助 DOCA,开发者可以利用 NVIDIA BlueField DPU 和 SuperNIC 的强大功能,实现突破性的网络、安全和存储性能。
DOCA 2.7 中的新功能在 AI 云数据中心中通过 BlueField DPU 和 SuperNIC 提供的功能和优势来扩展其更广泛的价值。最近的增强功能不仅有助于为 AI 工作负载提供卓越的性能,而且还增加了扩展的安全和网络功能。这些改进相结合,为开发者提供了一个强大的平台。DOCA 2.7 还通过 BlueField-3 SuperNIC 支持 NVIDIA Spectrum-X 参考架构。
-
以太网
+关注
关注
40文章
5371浏览量
171032 -
NVIDIA
+关注
关注
14文章
4929浏览量
102788 -
VLAN
+关注
关注
1文章
273浏览量
35569 -
DPU
+关注
关注
0文章
354浏览量
24123
原文标题:借助 NVIDIA DOCA 2.7 增强 AI 云数据中心和 NVIDIA Spectrum-X
文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论