0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA多个DPU加速HPC集群中的科学应用

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-30 07:20 次阅读

高性能计算( HPC )和人工智能已经将超级计算机作为主要的数据处理引擎,广泛应用于商业领域,使研究、科学发现和产品开发成为可能。这些系统可以进行复杂的模拟,开启软件编写软件的人工智能新时代。

超级计算领导力是指科学和创新领导力,它解释了许多政府、研究机构和企业为构建更快、更强大的超级计算平台而进行的投资。从超级计算系统中提取尽可能高的性能,同时实现高效利用,传统上与现代云计算的安全、多租户体系结构不兼容。

一个云本地超级计算平台首次提供了两全其美,将峰值性能和集群效率与安全隔离和多租户的现代零信任模型结合起来。实现这种架构转换的关键元素是 NVIDIA BlueField 数据处理单元( DPU )。 DPU 是一个完全集成的片上数据中心平台,为每个超级计算节点注入了两种新功能:

基础设施控制平面处理器 – 保护用户访问、存储访问、网络和计算节点的生命周期编排,减轻主计算处理器的负担并实现裸机多租户。

硬件加速的隔离线速率数据通路 – 实现裸机性能。

HPC 和 AI 通信框架和库对延迟和带宽敏感,它们在决定应用程序性能方面起着关键作用。将库从主机 CPUGPU 卸载到 BlueField DPU 为通信和计算的并行进程创建了最高程度的重叠。它还减少了操作系统抖动的负面影响,显著提高了应用程序性能。

云本地超级计算机体系结构的开发基于开放社区开发,包括商业公司、学术组织和政府机构。这个不断增长的社区对于开发下一代超级计算至关重要。

我们在本文中分享的一个例子是 MVAPICH2- DPU 库,由 X-ScaleSolutions 设计和开发。 MVAPICH2- DPU 库包含了消息传递接口( MPI )标准的非阻塞集合的卸载。这篇文章概述了这种卸载背后的基本概念,以及最终用户如何使用 MVAPICH2- DPU MPI 库来加速科学应用程序的执行,特别是使用密集的非阻塞 all-to-all 操作。

BlueField DPU

图 1 显示了 BlueField DPU 体系结构及其与主机计算平台的连接的概述。 DPU 通过 ConnectX-6 适配器具有 InfiniBand 网络连接。此外,它还有一组 Arm 内核。 Bluefield-2 DPU 有一组 8 个 Arm 内核,每个内核的工作频率为 2 。 0ghz 。 Arm 内核还有 16GB 的共享内存。

MVAPICH2- DPU MPI 库

MVAPICH2- DPU MPI 库是 MVMPI 库 的派生。该库经过优化,可利用 InfiniBand 网络充分发挥 BlueField DPU 的潜力。

poYBAGJlFmWABebUAAC0yuqJ7Os775.png

图 1 BlueField DPU 的体系结构及其与主机平台的连接

最新的 MVAPICH2- DPU 2021 。 06 版本具有以下功能:

基于 MVAPICH2 2 。 3 。 6 ,符合 MPI 3 。 1 标准

支持 MV2 。 3 。 6 版本 提供的所有功能

将非阻塞集合卸载到 DPU 的新框架

将非阻塞 Alltoall ( MPI \ Ialltoall )卸载到 DPU

所有非阻塞集合的计算重叠率为 100%

使用 MPI Ialltoall 非阻塞集合加速科学应用

MVAPICH2- DPU MPI 库入门

MVAPICH2- DPU 库可从 X-ScaleSolutions 获得:

发送电子邮件至 contactus@x-scalesolutions.com

填写联系人 形式

有关更多信息,请参阅 MVAPICH2-DPU 产品页。

OSU 微基准的示例执行

OSU MPI 微基准 的副本与 MVAPICH2- DPU MPI 包集成在一起。 OMB 基准套件由非阻塞集体操作的基准组成。这些基准旨在评估非阻塞 MPI 集合使用的计算和通信之间的重叠能力。

可以执行 OMB 包中的非阻塞集体基准,以评估以下指标:

重叠功能

启动非阻塞集合后立即合并计算步骤时的总执行时间

在 HPC-AI 咨询委员会集群上运行了一组 OMB 实验,其中 32 个节点与支持 HDR 200Gb / s InfiniBand 连接的 32 个 BlueField DPU s 相连。每个主机节点都有双插槽 Intel Xeon 16 核 CPU E5-2697A V4 @ 2 。 60 GHz 。每个 Bluefield-2 DPU 有 8 个 Arm 核@ 2 。 0ghz 和 16gb 内存。

图 2 显示了分别运行 512 个( 32 个节点,每个节点有 16 个进程( PPN ))和 1024 个( 32 个节点,每个节点有 32 个 PPN ) MPI 进程的 MPI \ u ialtoall 非阻塞集合基准的性能结果。随着消息大小的增加, MVAPICH2- DPU 库可以显示计算和 MPI Ialltoall 非阻塞集合之间的峰值( 100% )重叠。相比之下,没有这种 DPU 卸载功能的 MVAPICH2 默认库可以在计算和 MPI (所有非阻塞)集合之间提供很少的重叠。

pYYBAGJlFmeAUXXVAACO987vgLM434.png

图 2 MVAPICH2- DPU 库提取主机和服务器上发生的计算之间的峰值重叠的能力 MPI_Ialltoall 通信

当 MPI 应用程序中的计算步骤以重叠方式与 MPI Ialltoall 非阻塞集合操作一起使用时, MVAPICH2- DPU MPI 库在整个程序执行时间内提供了显著的性能优势。这是可能的,因为 DPU 中的 Arm 内核可以实现非阻塞的 all-to-all 操作,而主机上的 Xeon 内核正在执行峰值重叠的计算(图 2 )。

图 3 显示,与基本的 MVAPICH2 MPI 库相比, MVAPICH2- DPU MPI 库可以提供高达 23% 的性能优势。这是在 32 节点的 OMB-MPI-Iall 基准测试中跨消息大小和 ppn 的测试。

poYBAGJlFmiALO45AACbkHIwDY0000.png

图 3 当计算步骤与 MPI_Ialltoall 以重叠方式进行非阻塞集体操作

加速 P3DFFT 应用程序内核

P3DFFT 是一种常见的 MPI 内核,用于许多使用快速傅立叶变换( FFT )的终端应用程序。这个 MPI 内核的一个版本是由 P3DFFT 开发人员设计的,它使用非阻塞的 all-to-all 集合操作和计算步骤来利用最大的重叠。

P3DFFT MPI 内核的增强版本在 32 节点 HPC-AI 集群上使用 MVAPICH2- DPU MPI 库进行了评估。图 4 显示了 MVAPICH2- DPU MPI 库将 P3DFFT 应用程序内核的总体执行时间减少了 21% ,适用于各种网格大小和 ppn 。

pYYBAGJlFmiAbxLCAACQMsGnHiA766.png

图 4 MVAPICH2- DPU 库减少 P3DFFT 应用程序总执行时间的能力。

概括

NVIDIA DPU 体系结构提供了新的功能,可以将任何中间件的功能卸载到 DPU 上的可编程 Arm 内核。必须重新设计 MPI 库,以利用这些功能加速科学应用。

MVAPICH2- DPU MPI 库是利用这种 DPU 功能的领先库。 MVAPICH2- DPU 库的初始版本提供了对 MPI \ u ialtoall nonblocking collectives 的卸载支持,显示了计算和非阻塞 alltoall collective 之间 100% 的重叠。在 1024mpi 进程运行时,它可以将 P3DFFT 应用程序内核执行时间缩短 21% 。

这项研究证明了使用 MVAPICH2- DPU MPI 库的 DPU 体系结构具有很强的 ROI 。随着 DPU 体系结构的进步,即将发布的其他 MPI 功能的附加卸载功能将显著加快云本地超级计算系统上的科学应用。

关于作者

Gilad Shainer 担任 NVIDIA Mellanox networking 的营销高级副总裁,专注于高性能计算、人工智能和 InfiniBand 技术。

Dhabaleswar K (DK) Panda 是 X-SaleSalOffice 的创始人和 CEO ,也是俄亥俄州立大学计算机科学教授和杰出学者。

Nick Sarkauskas 是俄亥俄州立大学计算机科学与工程系博士学位的软件工程师。他目前在 X-ScaleSolutions 的工作是设计和开发 MVAPICH2- DPU 软件堆栈。他的研究兴趣包括高性能计算、高性能互连和并行算法。 Nick Sarkauskas 于 2020 年从 OSU 获得计算机科学与工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4935

    浏览量

    102807
  • 人工智能
    +关注

    关注

    1791

    文章

    46845

    浏览量

    237535
  • 应用程序
    +关注

    关注

    37

    文章

    3240

    浏览量

    57600
收藏 人收藏

    评论

    相关推荐

    NVIDIA发布cuPyNumeric加速计算库

    加速计算库帮助科研人员无缝地扩展到强大的计算集群,并且无需修改 Python 代码,推进科学发现。
    的头像 发表于 11-21 10:05 122次阅读

    NVIDIA加速计算如何推动医疗健康

    近日,NVIDIA 企业平台副总裁 Bob Pette 在 AI Summit 一场演讲重点谈论了 NVIDIA 加速计算如何推动医疗健康、网络安全和制造等行业实现转型。他表示,
    的头像 发表于 11-20 09:10 210次阅读

    科研计算HPC平台是什么

    高性能计算平台(HPC平台)是一个利用由成千上万个处理器核心组成的超级计算机或计算机集群来执行复杂计算任务的平台。
    的头像 发表于 10-21 10:43 131次阅读

    NVIDIA与思科合作打造企业级生成式AI基础设施

    NVIDIA 加速计算平台、NVIDIA AI Enterprise 软件和 NVIDIA NIM 推理微服务加持的思科 Nexus HyperFabric AI
    的头像 发表于 10-10 09:35 287次阅读

    NVIDIA突破美国禁令,将在中东部署其高性能AI/HPC GPU加速

    Ooredoo达成合作协议,将在中东地区部署其高性能AI/HPC GPU加速卡。这一举动不仅标志着NVIDIA在中东市场的战略布局取得了重大突破,也引发了外界对于如何防止这些先进技术流向中国的广泛讨论。
    的头像 发表于 06-24 14:47 809次阅读

    借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 462次阅读

    NVIDIA DPU编程入门开课仪式在澳门科技大学成功举办

    5 月 24 日,NVIDIA DPU 编程入门开课仪式在澳门科技大学成功举办。作为首个在中国开设 NVIDIA DPU 编程相关课程的高校,来自澳门科技大学不同院系的师生共同见证了本
    的头像 发表于 05-28 09:40 357次阅读

    高性能计算集群的能耗优化

    高性能计算(HighPerformanceComputing,HPC)是指利用大规模并行计算机集群来解决复杂的科学和工程问题的技术。高性能计算集群的应用领域非常广泛,包括天气预报、生物
    的头像 发表于 05-25 08:27 382次阅读
    高性能计算<b class='flag-5'>集群</b>的能耗优化

    助力科学发展,NVIDIA AI加速HPC研究

    科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、遗传学和材料科学领域的 HPC 工作。
    的头像 发表于 05-14 09:17 385次阅读
    助力<b class='flag-5'>科学</b>发展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 545次阅读

    什么是HPC高性能计算

    高性能计算(HighPerformanceComputing,简称HPC),是指利用集群、网格、超算等计算机技术,通过合理地组织计算机资源以及运用适合的算法和程序,提高计算效率和处理能力,实现对大量
    的头像 发表于 02-19 13:27 791次阅读
    什么是<b class='flag-5'>HPC</b>高性能计算

    《数据处理器:DPU编程入门》DPU计算入门书籍测评

    , 数据加速应用实践 。 分别介绍了DPU技术和英伟达DPU技术: DPU的诞生 现代计算架构及问题 数据解耦及大带宽数据应用 英伟达DPU
    发表于 12-24 10:54

    《数据处理器:DPU编程入门》读书笔记

    首先感谢电子发烧友论坛提供的试读机会。 第一周先阅读了DPU的技术发展背景,了解到DPU是结合了高性能及软件可编程的多核CPU、高性能网络接口,以及各种灵活和可编程的加速引擎。DPU
    发表于 12-21 10:47

    《数据处理器:DPU编程入门》+初步熟悉这本书的结构和主要内容

    ,并提高系统的响应速度和隐私保护。 4. 高性能计算:DPU可以在高性能计算领域中使用,例如科学研究、天气预报、金融模拟和大规模数据处理等。它可以提供更大的并行性和计算能力,加速复杂计算任务的执行。 3
    发表于 12-08 18:03

    NVIDIA 初创加速计划 Omniverse 加速

    的重要力量。基于 NVIDIA 全栈式 AI 计算平台和 Omniverse TM 平台上的生成式 AI 创作实践,让企业、开发者能够了解可落地的生成式 AI 内容创作技术及其技术趋势与当前边界。 NVIDIA 初创加速计划 是
    的头像 发表于 12-04 20:35 621次阅读
    <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划 Omniverse <b class='flag-5'>加速</b>营