0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA DOCA SDK提升数据中心的性能和安全性

星星科技指导员 来源:NVIDIA 作者:Ariel Kit 2022-04-27 15:42 次阅读

首席执行官黄仁勋在其 NVIDIA GTC 秋季主题演讲中推出了一种新型处理器,即 BlueField-2 DPU(数据处理器),和一款功能强大的 DPU 新软件开发套件 – DOCA,以及 DPU 和 AI 创新的三年路线图。NVIDIA BlueField-2 DPU 首次实现了集数据中心基础设施于芯片的架构,并针对现代企业数据中心进行了优化。在支持 DPU 卸载、加速和隔离数据中心服务,推动企业和 AI 应用程序将性能、安全性和可靠性提升至新高度方面,DOCA 起着关键作用。具体而言,DOCA 旨在帮您在当前和未来的 BlueField DPU上,提供广泛的面向可加速的软件定义网络、存储、安全和管理服务等。

pYYBAGJo9DKAOHziAAHzkYa4WzE931.png

图 1.运行在 DPU 上的面向数据中心基础设施应用的 DOCA 分层。

NVIDIA 还发布了 BlueField-2X,这是一款先进的基于 AI 的DPU,完美集成了 BlueField-2 的所有功能与 NVIDIA的 Ampere GPU 技术。DOCA 将添加对于 BlueField-2X 的支持,让您能够构建基于 AI 的、且经过优化的基础设施管理和网络安全应用。

凭借 DOCA 及其 BlueField DPU 系列,NVIDIA 正在重新塑造企业数据中心架构,让您可以构建安全且加速的基础设施服务。DOCA 之于 DPU 就像 CUDA 之于 GPU。就像CUDA 让您实现了加速计算应用的编程一样,DOCA可让您对数据处理的加速应用进行编程,将数据移入和移出服务器、虚拟机和容器。DOCA 与 CUDA 一起,服务于一个安全、加速的数据中心中的各类 NVIDIA AI 应用。

DOCA 已面向精选的抢先体验合作伙伴推出。如果您感兴趣,可以在 DOCA 开发者领地页面注册了解进一步信息。BlueField-2 正在样品阶段,它在多个操作系统发行版下的驱动、工具、加速库已经可以工作。

在本文中,我将探讨 DOCA 的优势并深入探究 API,提供一个功能强大的开发工具,实现从数据中心到边缘全面提升服务器的性能、效率和安全性。

应对软件定义一切的挑战

Marc Andreessen 在 2011 年一份著名的出版物中说:“软件正在吞噬整个世界。”时间快进到 2020 年。现在,在企业数据中心中占主导地位约 15 年之久的硬件设备已经转变为虚拟化、按需付费、安装在每台服务器上的软件服务。现代企业数据中心是软件定义、完全可编程的数据中心,旨在跨云、核心和边缘环境为高度分布式的应用工作负载提供服务。

软件定义的数据中心可提供类似云的灵活性和敏捷性,但会消耗许多CPU核资源。软件定义的“性能税”会消耗我们的业务应用或租户的 CPU 资源,并且降低服务器和数据中心的效率,有时还很严重。

DPU 位于每个数据中心的节点内,DOCA 可以让应用程序开发者和 NVIDIA 技术合作伙伴可以提供运行在 DPU上的各种服务,让 DPU 成为与业务隔离的、安全的服务域(或 Enclave),用于网络、安全、存储和基础设施管理。DPU 可加速所有关键数据中心的基础设施服务,还可以上运行控制平面的软件,如软件定义网络 (SDN) 的控制器、分布式存储软件,或在可编程 Arm 核上运行新一代防火墙代理。

poYBAGJo9DqAGeB1AACqp_9HGIE835.png

图 2.DOCA 实现了在 DPU 上的各种基础设施(网络、存储、安全和管理)应用运行在一个与 CPU 上的应用域相分离的一个隔离的、安全的服务域中。

加快基础设施服务走向市场的时间

DOCA 是一款 SDK,包括了 API、驱动、库、示例代码、文档和预设的容器等,可激活 BlueField-2 DPU 的加速、安全和虚拟化功能。DOCA 为您提供一套统一且可靠的工具,用于开发基于 DPU 运行的关键数据中心服务,以处理多种类型的数据处理。其中包括定向网络流量;存储的加速、虚拟化和压缩;数据加密和解密;安全威胁扫描;与远程管理工具的集成;在 Arm 核上运行控制平面应用。您可以对这些卸载和加速器进行编程,实现单独或一起使用,并可与基于 GPU 的 NVIDIA AI 平台进行集成。

DOCA 助力应用程序开发者、设备供应商、研究人员和 NVIDIA 软件合作伙伴通过一个 SDK 对所有这些 DPU 功能进行编程。许多功能的接口在底层的 API 和上层编程语言中均会提供。这些基于 DPU 运行的服务不仅仅是软件定义、硬件加速,而且支持 AI、易于编程。

未来几代 BlueField DPU 将借助新的增强型加速器提供更强的计算力。DOCA 可通过扩展API的方式来支持新的功能,确保了与DPU 的前向兼容。NVIDIA 致力于通过架构流程技术和软件创新来提升性能。我们持续提升云、核心和边缘环境以及应用工作负载的性能和功能。

简化 BlueField DPU 上的服务创建流程

下面,我们进一步了解 DOCA 如何处理四项关键的数据中心功能:网络、存储、安全性和管理。

网络

对于网络,DPU 可加速领先的的数据中心 SDN 和网络功能虚拟化 (NFV):开放虚拟交换 (OVS)、Overlay 网络(例如 VXLAN)、网络地址转换 (NAT)、自动负载平衡、细粒度流量管理和内容分发网络。

DOCA 支持您通过标准 DPDK API将服务应用和DPU加速引擎关联起来,例如 rte_flow 库可以支持基于流的不同操作,包括Overlay封包、、header rewrite, hairpin,以及对广泛的虚拟网络功能的测量。

为提升性能和主机 CPU 效率,DOCA 还包含了原生 OVS 和 OVS-over-DPDK 应用程序,通过 BlueField DPU 的硬件加速交换和数据包处理 (ASAP 2) 技术提供无缝加速。DPU 硬件对于主机网络的加速,由 DOCA 编程平台上运行的 OVS 应用来定义,数据中心 SDN 控制器来编排所有网络,并通过 DPU 的带外管理端口进行连接。

P4 是另一种语言,可以对 BlueField DPU 中灵活、可编程的数据路径加速器进行编程。DOCA 支持 P4语言,可支持未来基于 P4 开发的 VNF 业务。这个功能被集成到了已经拥有丰富的 VNF 产品生态系统的其它 API 中 。此架构允许同时执行面向内核、RoCE、DPDK、SPDK、P4 和 P4.runtime 接口编写的程序,这些可无缝共存并充分利用 DPU 数据路径加速。

存储

对于存储,DPU 支持加速软件定义的弹性存储、NVMe over Fabrics (NVMe-oF)、RoCE、静态数据(data-at-rest)加密、数据删除、分布式纠错和数据压缩。BlueField DPU NVMe SNAP 技术可提供弹性块存储功能,并向主机提供远程块存储,如同它是本地 NVMe 块存储或 VirtIO blk 块设备一样具有低延迟、高吞吐量和高 IOPS等特性。

DOCA 完全支持 SPDK 开源框架,可助力您创建自己的存储解决方案。通过模拟对 PCIe NVMe 磁盘的的访问,利用 BlueField DPU 的多项加速功能来实现各种自定义的逻辑,主机应用可以透明地管理模拟出来的NVMe存储。其中包括加密、ECC 分布式纠错、压缩、重复数据删除和恶意软件扫描。如果您要通过 DOCA 进行编程,现在无需对个别引擎进行显式编程,即可轻松调用用于数据存储的功能。

安全性

DPU 还可以卸载、加速和隔离所有关键数据中心安全服务。其中包括支持新一代防火墙、微分段、使用透明 IPSec 和 TLS 进行动态数据在线加密以及入侵保护。DPU 拥有一组专用的安全引擎,包含了构建安全解决方案的所有模块。

DOCA 包含一组用于开发安全应用程序的标准化 API。所有安全服务均始于数据包采集、解密、连接状态的有状态跟踪,一直到第 7 层深度数据包检查。这样会将应用程序流量分类为受信任或恶意。此外,它最终还会将定义的安全策略转换为一系列操作,例如数据包允许、丢弃、重写或重定向。编程通过标准 DPDK API 完成,如下所示:

rte_security,用于加密和解密

rte_sft 库,用于连接感知

rte_regex 库,用于正则表达式模式匹配

rte_dpi 库,用于对所有流水线加速函数进行深度包检查

DOCA 还支持基于 IPSec、TLS 和存储 AES-XTS 的原生内核加密,由 DPU 实现在线加速,可以轻松用于基于 OpenSSL 或 OVS-IPSec 的应用。这支持 DPU 在不通知主机的情况下透明地对所有流量进行加密和解密。其中包括 DPU 在安全 Enclave 内执行密钥管理。

通过 RDMA 库对主机进行快速内存访问,DOCA可让您创建严格的主机自检方案。借助自动恶意软件扫描,您可以进一步了解从 DPU 到主机的一举一动。如果发现恶意活动,您可以通过对 DPU 的硬件加速引擎的编程,达到以线速来执行策略。

基础设施管理

传统管理会在每台服务器上运行代理。但是,运行这些代理会消耗本可用于业务应用的 CPU 周期。代理通常无法监控服务器上 VM之间以及容器之间的网络流量。如果代理执行数据包过滤或流量遥测等功能,则会消耗更多 CPU 周期。如果服务器发生严重故障,则基于 VM 或容器的管理代理不太可能报告状态或重启服务器。

DOCA 允许于业务隔离的、基于 DPU 的代理执行带内或带外管理,而不会给服务器 CPU 增加负担。如果服务器需要重置,或者甚至租户或业务应用需要一台无代理的裸金属服务器,通过 DOCA 编程的 DPU 仍可发送遥测数据、执行远程重置或允许安全启动服务器,这些操作均无需在服务器 CPU 上运行代理。

BlueField 和 DOCA:强强联手

通过 BlueField DPU 和 DOCA,可以整合通常无法一起部署的数据中心基础设施服务。例如,由 CPU 或独立Look-aside加密卡对动态数据进行加密时,无法和 RoCE、压缩、哈希或 Overlay 网络一起工作。事实上,执行此类加密会禁用以上操作及许多其它网络卸载功能。这是因为,如果先对数据进行加密的话,意味着网络设备不再能识别数据包的内容,进而无法执行巧妙的数据包重路由、过滤、拥塞管理等操作。但是,使用 BlueField DPU 和 DOCA, 您可以通过编程将 RoCE、VXLAN、哈希计算、压缩,以及许多其它卸载功能与加密功能组合在一起,以及它们之间互相组合。

DOCA 将对所有功能合并到一个 SDK,让您使用基于通用开放API的加速库来即刻释放 DPU 的力量。您还可以使用 DOCA,透明地将关键控制平面应用或代理从 X86 域移植到 DPU 的Arm 核,从而提高服务器性能、效率,并实现工作负载和安全的隔离。

对数据处理加速和 AI 进行编程

重要的是,DOCA 更进一步地支持先进的 GPU 加速的 AI 工作负载,被完全整合到了大型 NVIDIA NGC 加速计算软件平台,成为了其中的一个测试项。

对于传统的企业应用,DOCA 可加速包含 BlueField DPU 的系统中的数据中心基础设施服务。但是,对于包含 DPU 和 GPU 的系统,加速 AI 和数据分析工作负载具有巨大优势。DOCA 已集成到 NGC 认证计划。它可以充分利用大量的开发、集成和测试资源,支持我们的全部 AI 应用程序框架(NVIDIA Riva、NVIDIA Merlin、NVIDIA Metropolis、NVIDIA Clara、NVIDIA Aerial 等)。DOCA 与 NGC 平台集成,还释放了各类第三方软件基础设施与应用的强大功能。

您可以将 DOCA 与 CUDA 结合使用,通过 GPU 加速计算并通过 DPU 加速数据中心服务。您还可以使用 DOCA 启用 GPUDirect,加速整个网络中 GPU 之间的通信

通过 DPU 简化对数据中心的加速和提升效率

DOCA 就像一个统一的编程网关,供 NVIDIA 开发者社区、合作伙伴和客户在 DPU 上进行开发,使他们受益于对于网络、存储和安全的加速以及简化管理。基于DOCA 开发的程序运行在 BlueField DPU 上,可以为数据中心内的每台服务器和每个存储节点卸载、加速和隔离端到端数据中心服务。因此,企业和私有云可通过硬件加速的 DPU 的性能和效率,实现软件定义服务的灵活性和可扩展性。

通过 DPU 实现对数据中心基础设施进行软件定义和硬件加速,您可以提高所有服务器的性能、效率和安全性。您将实现一种新的架构,那就是数据中心成为了新的计算单元。NVIDIA DPU 在单个芯片上实现了数据中心基础设施的各项功能,而 DOCA 则助您轻松地提高了数据中心的可扩展性、性能和威胁保护。

立即试用 DOCA

现在,您可以使用 BlueField DPU 软件包体验 DOCA,该软件包包含适用于网络、存储和安全的 DOCA 运行时加速库。这些库有助于您对 DPU 上运行的数据中心基础设施进行编程。

关于作者

Ariel Kit 是 NVIDIA 网络产品营销总监。 Ariel 负责管理 NVIDIA BlueField DPU 软件组合和网络安全的战略和交付。 Ariel 在网络安全和嵌入式片上系统领域拥有 6 年以上的产品开发经验,并拥有 12 年以上的研发管理经验。他有学士学位。通信系统工程和工商管理硕士。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4985

    浏览量

    103031
  • 服务器
    +关注

    关注

    12

    文章

    9150

    浏览量

    85392
  • 数据中心
    +关注

    关注

    16

    文章

    4774

    浏览量

    72112
收藏 人收藏

    评论

    相关推荐

    集中告警管理如何提升设施安全性

    在工业或商业建筑中,集中告警管理已成为确保安全性或检测故障的必备工具。它是如何提升设施安全性的?欢迎大家阅读文章了解~
    的头像 发表于 12-13 15:51 99次阅读
    集中告警管理如何<b class='flag-5'>提升</b>设施<b class='flag-5'>安全性</b>?

    NVIDIA DOCA 2.9版本的亮点解析

    NVIDIA DOCA通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能安全性和效率。其 AP
    的头像 发表于 11-27 11:15 307次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 2.9版本的亮点解析

    通过Google Play SDK管理中心打造更安全、更优质的SDK

    SDK,帮助 SDK 提供方提高 SDK性能、质量和安全性。 Google Play SDK
    的头像 发表于 11-14 10:36 267次阅读
    通过Google Play <b class='flag-5'>SDK</b>管理<b class='flag-5'>中心</b>打造更<b class='flag-5'>安全</b>、更优质的<b class='flag-5'>SDK</b>

    NVIDIA DOCA-OFED的主要特性

    NVIDIA DOCA 软件平台释放了 NVIDIA BlueField 网络平台的潜力,并为NVIDIA BlueField和ConnectX设备提供了所需的所有主机驱动程序。
    的头像 发表于 11-09 13:50 265次阅读

    如何选择数据中心服务

    在选择数据中心服务时,需要考虑多个关键因素以确保选择的服务能够满足业务需求并确保数据安全、可靠性能。以下是一些关键步骤和考虑因素: 一
    的头像 发表于 10-24 16:14 207次阅读

    怎样保障数据中心不间断电源不断电 提供可靠安全的供配电#数据中心

    数据中心配电系统
    安科瑞王金晶
    发布于 :2024年08月29日 14:51:36

    NVIDIA 在 Hot Chips 大会展示提升数据中心性能和能效的创新技术

    、在处理器及系统架构师领域的深度技术盛会,Hot Chips 已经成为价值万亿美元的数据中心计算市场的一个重要论坛。 在本周举行的 Hot Chips 2024 上,NVIDIA 的高级工程师们展示了
    的头像 发表于 08-28 16:38 374次阅读
    <b class='flag-5'>NVIDIA</b> 在 Hot Chips 大会展示<b class='flag-5'>提升</b><b class='flag-5'>数据中心性能</b>和能效的创新技术

    IB Verbs和NVIDIA DOCA GPUNetIO性能测试

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一个库,专门为实时在线 GPU
    的头像 发表于 08-23 17:03 607次阅读
    IB Verbs和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> GPUNetIO<b class='flag-5'>性能</b>测试

    半导体存储器在数据中心中的应用

    半导体存储器在数据中心中的应用是极其重要且广泛的,它们不仅是数据中心存储系统的核心组件,还直接关系到数据处理的效率、可靠安全性。以下将详
    的头像 发表于 08-20 10:17 619次阅读

    长工微IS6102A 15A E-Fuse:数据中心电源安全的守护者

    高效能的同时,确保电源系统的稳定性与安全性,成为了数据中心建设者们亟待解决的关键问题。在此背景下,长工微最新推出的IS6102A 15A E-Fuse,以其卓越的性能和全面的保护机制,为数据中
    的头像 发表于 07-12 17:45 906次阅读

    借助NVIDIA DOCA 2.7增强AI 云数据中心NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 493次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    冷却技术,提高计算密度,减少占地面积,并通过高带宽、低延迟的GPU通信,有效减少数据中心的碳足迹和能源消耗。相较于传统的NVIDIA H100风冷基础设施,GB200在相同功耗下实现25倍的性能
    发表于 05-13 17:16

    沃尔沃利用英伟达的SoC和AI来提升自动驾驶的安全性

    在2024年英伟达GPU技术大会(NVIDIA GTC 2024)上,沃尔沃介绍了如何利用人工智能和日益提升的算力来提升自动驾驶的安全性
    的头像 发表于 05-08 14:38 1174次阅读

    基于NVIDIA DOCA 2.6实现高性能安全的AI云设计

    作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在
    的头像 发表于 02-23 10:02 472次阅读

    澜起科技津逮服务器平台为数据中心带来卓越的安全性能

    津逮®服务器平台,一款由澜起科技精心打造的云计算数据中心解决方案,旨在为关键领域提供卓越的数据运算安全性和稳定性。该平台集成了津逮®CPU和混合安全内存模组(HSDIMM®)两大核心组
    的头像 发表于 01-31 11:43 1293次阅读