0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用AWS Graviton3上的SVE加速NVIDIA HPC软件

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-11 11:48 次阅读

最新 NVIDIA HPC SDK 更新扩展了可移植性,现在支持基于 Arm 的 AWS Graviton 3 processor 。在本文中,您将学习如何使用 NVIDIA 编译器启用可缩放矢量扩展( Scalable Vector Extension , SVE )自动矢量化,以最大限度地提高运行在 AWS Graviton3 CPU 上的 HPC 应用程序的性能。

HPC SDK NVIDIA 软件包

NVIDIA HPC SDK 包括经过验证的编译器、库和软件工具,对于最大限度地提高开发人员生产力和为 CPU 、 CPU 或云构建 HPC 应用 至关重要。

NVIDIA HPC compilers 为 NVIDIA GPU 和多核 Arm 、 OpenPOWER 或 x86-64 CPU 启用跨平台 C 、 C ++和 Fortran 编程。对于使用 OpenMP 、 OpenACC 和 CUDA 以 C 、 C ++或 Fortran 编写的 HPC 建模和仿真应用程序,这些都是理想的选择。

例如,与 GCC 12.1 相比,使用 NVIDIA HPC 编译器编译时, AWS Graviton 3 的 SPEC CPU ® 2017 基准分数预计增加 17% 。

编译器还可以与优化的 NVIDIA math libraries 、通信库以及性能调优和调试工具完全互操作。这些加速的数学库最大限度地提高了普通 HPC 算法的性能,而优化的通信库支持基于标准的可扩展系统编程。

集成的性能分析和调试工具简化了 HPC 应用程序的移植和优化,而容器化工具可以方便地在本地或云中部署。

臂和 AWS 重力 3

AWS Graviton3 于 2022 年 5 月推出,是 AWS 基于 Arm 的 CPU 。 Arm 体系结构具有传统的能效和对高内存带宽的支持,使其成为云和数据中心计算的理想选择。 Amazon 报导 :

Amazon EC2 C7g 实例由最新一代 AWS Graviton3 处理器提供支持,为计算密集型工作负载提供了 Amazon EC2 中最佳的性价比。 C7g 实例非常适合 HPC 、批处理、电子设计自动化( EDA )、游戏、视频编码、科学建模、分布式分析、基于 CPU 的机器学习( ML )推理和广告服务。与基于第六代 AWS Graviton2 的 C6g 实例相比,它们的性能提高了 25% 。

与 AWS Graviton2 相比, ANSYS 将 AWS Graviton3 的性能提高 35% 作为基准 。一级方程式模拟速度也提高了 40% 。自推出 Arm Neoverse 产品线以来,基于 Arm 的 CPU 一直在提供重大创新和性能增强,当时 Neoverses N1 核心 超过绩效预期30% 。

与 Arm 支持新计算技术的历史保持一致, AWS Graviton3 的特点是 DDR5 内存和 SVE 到 Arm 体系结构。

Amazon EC2 C7g 实例是云中第一个使用 DDR5 内存的实例,与 DDR4 内存相比,它提供了 50% 的内存带宽,从而实现了对内存中数据的高速访问。充分利用所有内存带宽的最佳方法是使用最新的矢量化技术: Arm SVE 。

SVE 架构

除了是第一个提供 DDR5 的云托管 CPU 之外, AWS Graviton3 也是第一个在云中使用 SVE 的。

SVE 首次引入富士通 A64FX CPU ,为 RIKEN Fugaku 超级计算机供电。当 Fugaku 推出时,它打破了所有当代 HPC CPU 基准,并在两年内自信地名列 TOP500 超级计算机榜首。

SVE 和高带宽内存是 A64FX 的主要设计特点,是 HPC 的理想之选,而 AWS Graviton3 处理器中也有这两个特点。

SVE 是 Arm 体系结构的下一代 SIMD 扩展。它可以使用 CPU 实现中的一系列可能值实现灵活的矢量长度。矢量长度可以从最小 128 位到最大 2048 位不等,增量为 128 位。

例如,富士通 A64FX 以 512 位实现 SVE ,而 AWS Graviton3 以 256 位实现。与其他 SIMD 体系结构不同,尽管硬件矢量位宽度不同,但相同的汇编代码在两个 CPU 上运行。这称为矢量长度无关( VLA )编程。

VLA 代码具有高度的可移植性,可以使编译器生成更好的汇编代码。但是,如果编译器知道目标 CPU 的硬件矢量位宽度,它可以针对特定的体系结构进行进一步优化。这是矢量长度特定( VLS )编程。

SVE 对 VLA 和 VLS 使用相同的汇编语言。唯一的区别是,编译器在生成代码时可以自由地对数据布局、循环跳闸计数和其他相关特性进行附加断言。这会产生高度优化的、特定于目标的代码,从而充分利用 CPU 。

SVE 还引入了一系列功能强大的高级功能,非常适合 HPC 和 ML 应用:

收集加载和分散存储指令允许对结构数组和其他非连续数据进行矢量化操作。

推测性矢量化支持对包含控制流的字符串操作函数和循环进行 SIMD 加速。

水平和序列化矢量操作有助于数据缩减,并有助于优化处理大型数据集的循环。

SVE 不是 NEON 指令集的扩展或替代,后者也可在 AWS Gravition3 中使用。 SVE 经过重新设计,以提高 HPC 和 ML 的数据并行性。

使用 NVIDIA HPC 编译器最大限度地提高 Graviton3 性能

编译器自动矢量化是利用 SVE 的最简单方法之一, NVIDIA HPC 编译器在 22.7 版本中添加了对 SVE 自动矢量化的支持。

为了最大限度地提高性能,编译器执行分析以确定要生成的 SIMD 指令。 SVE 自动矢量化使用目标特定信息,根据 CPU 核的矢量位宽度生成高度优化的矢量长度特定( VLS )代码。

要启用 SVE 自动矢量化,请为目标 CPU 指定适当的 -tp 体系结构标志: -tp = neoverse-v1 。如果不指定 -tp 选项,则假定应用程序将在编译它的同一系统上执行。

在 Graviton3 上使用 NVIDIA HPC 编译器编译的应用程序会自动充分利用 CPU 的 256 位 SVE SIMD 单元。 Graviton3 还向后兼容 -tp = neoverse-n1 选项,但仅在其 128 位 NEON SIMD 单元上运行矢量代码。

NVIDIA HPC SDK 入门

NVIDIA HPC SDK 提供了一个全面且经验证的软件堆栈。它使 HPC 开发人员能够在 NVIDIA 平台和 AWS Graviton3 等高性能系统上创建和优化应用程序性能。

通过提供广泛的编程模型、库和开发工具,可以针对专用硬件高效开发应用程序,从而在 NVIDIA GPU 和支持 SVE 的处理器(如 AWS Graviton3 )等系统中实现最先进的性能。

关于作者

John Linford 博士是 NVIDIA 的首席技术经理,专注于开发 CPU 软件生态系统。 John 此前曾担任 HPC 工程部主任。 John 拥有近二十年的一线 HPC 应用、系统和优化经验,尤其喜欢与新兴技术和极端规模的系统合作。约翰的总部设在德克萨斯州奥斯汀。

Scott Manley 是一名编译器优化工程师,也是 NVIDIA HPC SDK 的自动矢量化主管。 Scott 的整个职业生涯都致力于矢量化和 HPC 编译器。他曾在 Cray 编译环境( CCE )工作,并在都柏林三一学院获得博士学位,主要致力于优化 SIMD ISAs 的使用。

Graham Lopez 在 NVIDIA 领导高性能计算编译器的产品管理。此前,他曾与应用程序合作,以在当前和未来的领先级计算设施上大规模运行。除了直接参与 HPC 应用程序之外, Graham 还发表了编程模型、计算科学、异构系统的应用程序加速和基准测试以及低级通信 API 等领域的研究成果。格雷厄姆过去三年一直是 ISO C ++标准委员会的成员。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4992

    浏览量

    103142
  • 编译器
    +关注

    关注

    1

    文章

    1634

    浏览量

    49148
收藏 人收藏

    评论

    相关推荐

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争力。
    的头像 发表于 12-27 16:24 131次阅读

    强悍的AWS Graviton4处理器及其背后的Arm Neoverse

    电子发烧友网报道(文/吴子鹏)在今年的亚马逊re:Invent 2024大会上,该公司正式对外发布了旗下第四代自研Arm芯片——Graviton4。作为目前最强大的Graviton处理器
    的头像 发表于 12-19 00:04 1521次阅读

    Arm与AWS合作深化,AWS Graviton4展现显著进展

    前所未有的性能潜力,使他们能够更充分地利用其云工作负载。 AWS Graviton4的进步不仅体现在性能的提升上,更在于其
    的头像 发表于 12-18 14:17 181次阅读

    云计算HPC软件关键技术

    云计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面,AI部落小编带您探讨云计算HPC
    的头像 发表于 12-18 11:23 98次阅读

    NVIDIA通过加速AWS的机器人仿真推进物理AI的发展

    NVIDIA Isaac Sim 现在可在 Amazon EC2 G6e 实例中的 NVIDIA GPU 云实例使用,将机器人仿真的扩展速度提高了 2 倍并加快了 AI 模型的训练速度
    的头像 发表于 12-09 11:50 316次阅读

    Matter SVE认证经验分享

    Spec Validation Event(SVE)活动都能更好地验证设备是否符合最新的Matter认证测试要求,这篇文章就是参加SVE活动的经验分享。
    的头像 发表于 11-13 09:16 300次阅读
    Matter <b class='flag-5'>SVE</b>认证经验分享

    亚马逊云科技宣布基于自研Amazon Graviton4的Amazon EC2 R8g实例正式可用

    ) R8g实例现已正式可用。Amazon EC2 R8g实例与基于Amazon Graviton3的实例相比性能提升高达30%,非常适用于如数据库、内存缓存和实时大数据分析等内存密集型工作负载。这些实例均
    的头像 发表于 07-15 16:09 389次阅读

    亚马逊网络服务即将推出第四代Graviton处理器

    7月10日,雅虎财经独家报道了亚马逊网络服务(AWS)即将推出的重大技术进展——其第四代Graviton处理器,即Graviton4芯片。这一重要信息由AWS的计算与人工智能产品管理总
    的头像 发表于 07-10 15:51 629次阅读

    NVIDIA突破美国禁令,将在中东部署其高性能AI/HPC GPU加速

    Ooredoo达成合作协议,将在中东地区部署其高性能AI/HPC GPU加速卡。这一举动不仅标志着NVIDIA在中东市场的战略布局取得了重大突破,也引发了外界对于如何防止这些先进技术流向中国的广泛讨论。
    的头像 发表于 06-24 14:47 854次阅读

    NVIDIA 通过 Holoscan 为 NVIDIA IGX 提供企业软件支持

    Enterprise-IGX软件现已在NVIDIA IGX平台上正式可用,以满足工业边缘对实时 AI 计算日益增长的需求。它们将共同帮助医疗、工业和科学计算领域的解决方案提供商利用企业级软件
    的头像 发表于 06-04 10:21 516次阅读

    利用NVIDIA的nvJPEG2000库分析DICOM医学影像的解码功能

    本文将深入分析 DICOM 医学影像的解码功能。AWS HealthImaging 利用 NVIDIA 的 nvJPEG2000 库来实现此功能。
    的头像 发表于 05-28 14:27 819次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b>的nvJPEG2000库分析DICOM医学影像的解码功能

    助力科学发展,NVIDIA AI加速HPC研究

    科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、遗传学和材料科学领域的 HPC 工作。
    的头像 发表于 05-14 09:17 423次阅读
    助力科学发展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    NVIDIA AI微服务现已与AWS集成,加速药物研发和数字医疗

    NVIDIA NIM 使数千家使用 AWS 的医疗和生命科学公司能够快速、轻松开发和部署生成式 AI。
    的头像 发表于 05-09 09:21 1570次阅读

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的
    的头像 发表于 04-28 10:36 582次阅读

    Cadence与NVIDIA联合推出利用加速计算和生成式AI重塑设计

    中国上海,2024 年 3 月 25 日——楷登电子(美国 Cadence 公司,NASDAQ:CDNS)近日宣布,公司将深化与 NVIDIA 在 EDA、系统设计与分析、数字生物学和人工智能领域的多年合作,推出两款变革性解决方案,利用
    的头像 发表于 03-25 14:36 619次阅读