0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

剖析NVIDIA DPU如何在HPC 集群上加速科学计算应用

GLeX_murata_eet 来源:NVIDIA英伟达中国 作者:NVIDIA英伟达中国 2021-08-02 15:23 次阅读

高性能计算(HPC)和人工智能已经将超级计算机推向了广泛的商业应用领域,成为其主要的数据处理引擎,助力于研究探索、科学发现和产品开发等。

这些系统可以进行复杂的模拟,开启通过软件编写软件的人工智能新时代。

超级计算能力的领先意味着科学和创新能力的领先,这也是为什么许多政府、研究机构和企业愿意投资构建更快、更强大的超级计算平台的原因。

追求超级计算系统最高的性能来达到最佳的效率,传统意义上与现代云计算系统追求的安全、多租户架构完全不一样。

云原生超级计算平台首次提供了一个两全其美的方案,将峰值性能、集群效率与当代流行的基于零信任的安全隔离和多租户等特征集于一体。

迈向这种新架构的关键就是 NVIDIA 的 BlueField DPU(数据处理器)。DPU 是一个集数据中心于单芯片的平台,为每个超级计算节点注入了两种新功能:

基础设施的控制平面处理器 – 保护用户访问的安全、加速存储访问、加速网络通信和对于计算节点的全生命周期编排,卸载主计算处理器的基础设施操作,实现裸机多租户。

通过硬件加速的方式将数据通路隔离出来,保障线速 – 实现裸机性能。

HPC 和 AI 通信框架和库对延迟和带宽都很敏感,它们在应用性能方面起着关键作用。将通信库从主机 CPUGPU 卸载到 BlueField DPU ,为通信和计算的并行处理实现了最大程度的重叠,它还减少了操作系统的抖动带来的负面影响,显著提高了应用性能。

云原生超级计算机架构的开发是基于开放社区而进行的,包括了商业公司、学术组织和政府机构等。这个不断增长的社区对于开发下一代超级计算至关重要。

在本文中分享的一个例子是 MVAPICH2-DPU 通信库,由 X-ScaleSolutions 公司设计和开发。MVAPICH2-DPU 库实现了了对于标准 MPI(消息传递接口)的无阻塞集合通信的卸载。

本文将介绍这种无阻塞集合通信卸载的基本原理,以及最终用户如何使用 MVAPICH2-DPU MPI 库来加速科学计算应用的执行,特别是针对于大规模的的无阻塞 all-to-all 通信。

BlueField DPU

关于 BlueField DPU 的架构及其如何与主机计算平台互连的介绍, DPU 上的 ConnectX-6 网卡可以提供 InfiniBand 网络接口。此外,它还有一组 Arm 核, BlueField-2 DPU 包含一组 8 个 2.0 GHz 的 Arm 核, Arm 处理器集成了 16GB 的共享内存。

MVAPICH2-DPU MPI 通信库是 MVAPICH2 MPI 通信库的分支,该通信库专门为在 InfiniBand 网络中充分发挥 BlueField DPU 的潜力而进行了优化。

最新的 MVAPICH2-DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2.3.6 版本,符合 MPI 3.1 标准

支持 MVAPICH2 2.3.6 版本 提供的所有功能

通过这个新框架可以将无阻塞集合通信(Nonblocking Collectives)卸载到 DPU

卸载无阻塞 Alltoall (MPI 的 Ialltoall)到 DPU

100%的计算与 MPI_Ialltoall 无阻塞集合通信的重叠使用 MPI Ialltoall 无阻塞集合通信加速科学计算应用

OSU(俄亥俄州立大学)做的

Micro-Benchmark 测试用例

OSU的MVAPICH2-DPU MPI 软件包内置了OSU MPI Micro-Benchmarks。OMB 基准测试套件包含了无阻塞集合通信操作的基准测试,这些基准测试旨在评估无阻塞 MPI 集合通信和计算之间的重叠能力。

OMB 测试包中的无阻塞集合通信测试基准可以用来评估以下指标:

重叠功能

采用无阻塞集合通信与计算步骤重叠运行时的总执行时间

为此,我们在国际高性能计算和人工智能咨询委员会(HPC-AI Advisory Council)的一台 32 节点的集群上运行了完整 OMB 测试这台集群采用了32 个HDR 200Gb/s InfiniBand BlueField DPU 互连在一起,每个主机节点有两个 16 核、2.60 GHz 的 Intel Xeon E5-2697A V4 CPU ,每个 BluefFeld-2 DPU 有 8 个2.0 GHz 的 Arm 核和 16GB 内存。

分别运行 512 个MPI 进程( 32 个节点,每个节点运行 16 个进程(PPN:Process Per Node )和 1024 个MPI 进程(32 个节点,每个节点运行 32 个 PPN)的 MPI的 Ialltoall 无阻塞集合通信的测试结果。

随着消息(Message)大小的增加, MVAPICH2- DPU 库表现出了计算和 MPI Ialltoall 无阻塞集合通信之间的完全(100%)重叠。相比之下,没有 DPU 来卸载的 MVAPICH2 默认通信库,仅仅可以在计算和 MPI Ialltoall 无阻塞集合通信之间发生很少的重叠。

当 MPI 应用程序中的计算步骤与 MPI Ialltoall 无阻塞集合通信进行重叠操作时, MVAPICH2-DPU MPI 库在程序的总体执行时间上体现出了显著的性能优势。

其原因就是因为 在主机上的 Xeon CPU 核在计算时,DPU 中的 Arm 核可以同时在执行无阻塞 MPI all-to-all 通信,实现了计算和通信的高度重叠。

与标准的 MVAPICH2 MPI 库相比, MVAPICH2-DPU MPI 库可以提供高达 23% 的性能优势。这个 OMB-MPI_Ialltoall 测试涵盖了在 32 节点上不同消息大小和 不同 PPN 的场景。

加速 P3DFFT 应用程序内核

P3DFFT 是一种常见的 MPI 内核,被用于许多使用快速傅立叶变换( FFT )的终端应用。P3DFFT 的开发人员专门设计了一个 MPI 内核版本来支持无阻塞 all-to-all 集合通信和计算步骤的最大化重叠操作。

我们在HPC-AI Advisory Council的 32 节点集群上对 P3DFFT MPI 内核的增强版本通过MVAPICH2-DPU MPI 库进行了评估。从图 4 可以看到 MVAPICH2-DPU MPI 库将 P3DFFT 应用内核的总体执行时间减少了 21% ,涵盖了各种大小的网格和PPN 。

概括

NVIDIA DPU 架构提供了新的功能,可以将各种中间件的功能卸载到 DPU 上的可编程 Arm 核上。为了能利用这些功能来加速科学应用,必须重新设计 MPI 通信库。

MVAPICH2-DPU MPI 库是利用到 DPU 的这种功能的先行者之一。最初版本的可以卸载MPI_Ialltoall 无阻塞集合通信的MVAPICH2-DPU 通信库,展示了计算和无阻塞 alltoall 集合通信的之间的 100% 重叠。在运行 1024 个MPI进程时,它可以将 P3DFFT 应用内核的执行时间缩短 21% 。

这项研究证明了使用 MVAPICH2-DPU MPI 通信库的 DPU 架构具有很强的 ROI 。

随着 DPU 架构的不断进步,越来越多的面向其它 MPI 操作的卸载功能将随着新的版本逐渐发布,并为加速云原生超级计算系统上的科学应用发挥重要作用。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5010

    浏览量

    103238

原文标题:NVIDIA DPU在HPC 集群上加速科学计算应用

文章出处:【微信号:murata-eetrend,微信公众号:murata-eetrend】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA BlueField-3 DPU运行WEKA客户端的实际优势

    WEKA是可扩展软件定义数据平台的先驱,NVIDIA 正在与其合作,将 WEKA 先进的数据平台解决方案与功能强大的NVIDIA BlueField DPU相结合。
    的头像 发表于 01-07 09:43 88次阅读
    在<b class='flag-5'>NVIDIA</b> BlueField-3 <b class='flag-5'>DPU</b><b class='flag-5'>上</b>运行WEKA客户端的实际优势

    计算HPC软件关键技术

    计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨云计算
    的头像 发表于 12-18 11:23 107次阅读

    《CST Studio Suite 2024 GPU加速计算指南》

    的各个方面,包括硬件支持、操作系统支持、许可证、GPU计算的启用、NVIDIA和AMD GPU的详细信息以及相关的使用指南和故障排除等内容。 1. 硬件支持 - NVIDIA GPU:详细列出了支持
    发表于 12-16 14:25

    计算HPC的关系

    尽管云计算HPC在架构、应用场景和成本效益等方面存在显著差异,但云计算HPC之间并非孤立存在,而是相互补充、协同发展的关系。下面,AI部落小编带您探讨云
    的头像 发表于 12-14 10:35 126次阅读

    NVIDIA发布cuPyNumeric加速计算

    加速计算库帮助科研人员无缝地扩展到强大的计算集群,并且无需修改 Python 代码,推进科学发现。
    的头像 发表于 11-21 10:05 274次阅读

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲中重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示,
    的头像 发表于 11-20 09:10 305次阅读

    NVIDIA 以太网加速 xAI 构建的全球最大 AI 超级计算

    市的 Colossus 超级计算集群达到了 10 万颗 NVIDIA® Hopper  GPU 的巨大规模。该集群使用了 NVIDIA S
    发表于 10-30 09:33 164次阅读
    <b class='flag-5'>NVIDIA</b> 以太网<b class='flag-5'>加速</b> xAI 构建的全球最大 AI 超级<b class='flag-5'>计算</b>机

    科研计算HPC平台是什么

    高性能计算平台(HPC平台)是一个利用由成千上万个处理器核心组成的超级计算机或计算集群来执行复杂计算
    的头像 发表于 10-21 10:43 193次阅读

    HPC计算前景

    高性能计算HPC)与云计算的结合,正逐步成为推动科技创新和产业升级的重要引擎。随着数据规模的不断扩大和计算需求的日益复杂,HPC
    的头像 发表于 10-16 10:17 245次阅读

    借助NVIDIA超级计算加速量子计算发展

    科学期刊《自然》(Nature)本月早些时候发表了一项研究,通过使用 NVIDIA 驱动的超级计算机,验证了量子计算的商业化途径。
    的头像 发表于 07-25 09:55 541次阅读

    基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

    模拟器,可为 SNN 算法开发者和神经学家提供理想满意的类脑仿真实验平台。 (2)本设计提供的基于 NEST 仿真器的 FPGA 集群的硬件加速服务可以为实验环境不理 想,应用计算复杂周期长的用户带来
    发表于 06-25 18:35

    高性能计算集群的能耗优化

    高性能计算(HighPerformanceComputing,HPC)是指利用大规模并行计算集群来解决复杂的科学和工程问题的技术。高性能
    的头像 发表于 05-25 08:27 452次阅读
    高性能<b class='flag-5'>计算</b><b class='flag-5'>集群</b>的能耗优化

    助力科学发展,NVIDIA AI加速HPC研究

    科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、遗传学和材料科学领域的 HPC 工作。
    的头像 发表于 05-14 09:17 426次阅读
    助力<b class='flag-5'>科学</b>发展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 594次阅读

    什么是HPC高性能计算

    高性能计算(HighPerformanceComputing,简称HPC),是指利用集群、网格、超算等计算机技术,通过合理地组织计算机资源以
    的头像 发表于 02-19 13:27 878次阅读
    什么是<b class='flag-5'>HPC</b>高性能<b class='flag-5'>计算</b>