0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用NVIDIA GPU加速HPC应用性能提升

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-06-08 10:57 次阅读

本文作者:

Ashraf EassaNVIDIA 加速计算部门高级产品营销经理

Chris PorterNVIDIA HPC & AI 高级技术营销经理

高性能计算(HPC)已经成为必不可少的科学研究工具。

无论是研发出拯救生命的新药,还是抵御气候变化,或是精确模拟我们的世界,这些解决方案都需要强大的处理能力,而且这一需求正在快速增长,日益超出传统计算方法能够应对的范畴。

因此,业界纷纷采用 NVIDIA 的 GPU 进行加速计算。结合 AI,它能带来数百万倍的性能加速,推动科学的进步。如今,已有 2700 个应用受益于 NVIDIA GPU 加速,而在日益增长的 300 万开发者共同组成的社区支持下,这一数字仍在不断攀升。

HPC 应用性能提升

为将所有 HPC 应用的速度提升数倍,我们需要在堆栈的每个层面进行不断的创新,包括芯片、系统以及应用框架本身。

随着架构和 NVIDIA 软件栈整体上的不断进步, NVIDIA 平台的性能每年都会显著提高。与六年前发布的 P100 相比, H100 Tensor Core GPU 的性能提高 26 倍,比摩尔定律快 3 倍以上。

NVIDIA 平台的核心是一个功能丰富的高性能软件堆栈。为了方便各种 HPC 应用实现 GPU 加速,该平台加入了 NVIDIA HPC SDK。SDK 使开发者能够使用标准语言、导语指令以及 CUDA 来编写和移植 GPU 加速应用,为开发者带来了无与伦比的灵活性。

NVIDIA HPC SDK 的强大之处在于其庞大且高度优化的 GPU 加速数学库,使用户能够充分发挥 NVIDIA GPU 的性能潜力。为了实现最佳的多 GPU 和多节点扩展性能, NVIDIA HPC SDK 还提供强大的通信库:

NVSHMEM 为跨多个 GPU 内存的数据创建了一个全局地址空间。

NVIDIA 集合通信库(NCCL)优化了 GPU 之间的通信。

总之,该平台提供最高的性能和灵活性,为庞大的、不断增长的 GPU 加速 HPC 应用提供支持。

HPC 的性能和能效

为了展示 NVIDIA 全栈创新如何助力加速 HPC 实现最高性能, 我们将一台配备 4 颗 NVIDIA GPU 的慧与(HPE)服务器与一台配备另一家厂商同等数量加速器模块且配置相似的服务器进行了性能比较。

我们使用多种算例测试了广泛使用的五个 HPC 应用。尽管在各个行业中有约 2700 个应用基于 NVIDIA 平台实现了加速,但由于另一家厂商的加速器只支持部分软件和应用版本,我们在此次比较中所能使用的应用有限。

对于除 NAMD (用于分子动力学模拟的软件)以外的所有应用,我们首先获得多个算例的结果,然后使用它们的几何平均值作为计算结果,这样可以将异常值的影响最小化并反映客户的体验。

我们还在多 GPU 和单 GPU 场景下测试了这些应用。

在多 GPU 场景中,测试系统中的所有加速器都被用来运行一个模拟,基于 A100 Tensor Core GPU 的服务器所提供的性能比起另一台服务器高出 2.1 倍。

得益于计算性能的持续进步,分子动力学领域正朝着模拟更大的原子体系和更长的时间的方向发展。这使研究者能够模拟越来越多的生物化学机制,例如光合电子传递和视觉信号转导。对于此类过程,由于模拟这一主要验证方式耗时过长,之前无法通过模拟来对其进行验证,导致这类过程也一直引发科学界的争论。

但我们认识到,并非所有用户都会在每次模拟时使用多个 GPU 运行。为了获得最佳吞吐量,最好的方法往往是为每次模拟分配一个 GPU。

当在单一加速器模块( NVIDIA A100 上一个的完整 GPU 和另一款产品上的两个计算芯片)上运行这些应用时,基于 NVIDIA A100 的系统提供了高达 1.9 倍的性能。

电力成本占据了数据中心和超级计算中心总拥有成本(TCO)中的很大一部分,这突出了高能效计算平台的重要性。根据我们的测试, NVIDIA 平台的每瓦吞吐量比其他产品高 2.8 倍。

多年来, 我们为了最大限度地提高应用性能和效率而坚持不懈地进行软硬件协同优化,最终打造出具有卓越性能和能效的 NVIDIA A100 GPU。欲进一步了解 NVIDIA Ampere 架构,请参见 NVIDIA A100 Tensor Core GPU 白皮书。

A100 在操作系统中也表现为一个单一的处理器,只需要启动一个 MPI 线程就可以充分发挥它的性能。而且由于一个节点中所有 GPU 之间都采用 600-GB/s NVLink 互联,因此 A100 可以提供出色的扩展性能。

AI 与 HPC 的融合

正如加速计算将模拟和仿真应用的速度提高了数倍, AI 和 HPC 的结合也将进一步提升性能,推动下一波科学研究的发展。

从我们首次提交 MLPerf 训练结果到最近一次提交,已有三年的时间。在这三年里, NVIDIA 平台在这套由同行评审的行业标准基准测试中将深度学习性能提高了 20 倍。这些成果来自于芯片、软件和规模上的全面提高。

科学家和研究者已在使用 AI 大幅提升性能,加快科学研究的速度。

使识别引力波所需的时间减少为原来 10 万分之一。

对呼吸道飞沫中的 Delta SARS-CoV-2 病毒(原子数超过 10 亿)进行模拟的速度提高 1000 倍。

加速清洁聚变能源的发展。

为余热锅炉(HRSG)工厂创建预测性数字孪生。

世界各地的超级计算中心都在持续使用加速 AI 超级计算机。

阿贡领导力计算设施(ALCF)的 Polaris 超级计算机、美国国家能源研究科学计算中心(NERSC)的 Perlmutter、意大利多所大学组建的 CINECA 联盟建设的 Leonardo,均采用 A100 Tensor Core GPU 加速。

即将在 2023 年上线的 Alps 超级计算机基于 NVIDIA 的 Grace Hopper 超级芯片打造而成。

计划于 2023 年交付的洛斯阿拉莫斯国家实验室的 Venado 系统,将包含 Grace Hopper 超级芯片以及 Grace CPU 超级芯片节点。

原文标题:NVIDIA 通过全栈创新推动高性能计算的发展

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4949

    浏览量

    102850
  • HPC
    HPC
    +关注

    关注

    0

    文章

    312

    浏览量

    23701
  • 高性能计算
    +关注

    关注

    0

    文章

    82

    浏览量

    13379

原文标题:NVIDIA 通过全栈创新推动高性能计算的发展

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    对卷积核优化的思考。 GPU的存储体系采用了独特的倒金字塔结构,在我看来这是其计算性能的关键。大容量寄存器设计破解了传统冯诺依曼架构的内存瓶颈,合并访存机制巧妙解决了内存带宽限制。NVIDIA
    发表于 11-24 17:12

    使用Arthas火焰图工具的Java应用性能分析和优化经验

    分享作者在使用Arthas火焰图工具进行Java应用性能分析和优化的经验。
    的头像 发表于 10-28 09:27 184次阅读
    使用Arthas火焰图工具的Java<b class='flag-5'>应用性能</b>分析和优化经验

    AMD与NVIDIA GPU优缺点

    在图形处理单元(GPU)市场,AMD和NVIDIA是两大主要的竞争者,它们各自推出的产品在性能、功耗、价格等方面都有着不同的特点和优势。 一、性能
    的头像 发表于 10-27 11:15 509次阅读

    NVIDIA CorrDiff生成式AI模型能够精准预测台风

    NVIDIA GPU 上运行的一个扩散模型向天气预报工作者展示了加速计算如何实现新的用途并提升能效。
    的头像 发表于 09-13 17:13 673次阅读

    利用NVIDIA RAPIDS加速DolphinDB Shark平台提升计算性能

    DolphinDB 是一家高性能数据库研发企业,也是 NVIDIA 初创加速计划成员,其开发的产品基于高性能分布式时序数据库,是支持复杂计算和流数据分析的实时计算平台,适用于金融、电力
    的头像 发表于 09-09 09:57 429次阅读
    利用<b class='flag-5'>NVIDIA</b> RAPIDS<b class='flag-5'>加速</b>DolphinDB Shark平台<b class='flag-5'>提升</b>计算<b class='flag-5'>性能</b>

    带你了解什么是高性能计算(HPC

    受益于HPC更高的速度处理大量数据的能力,全球正在进入HPC大周期,高性能计算的发展水平已经成为衡量一个国家综合实力和高科技发展水平的重要标志,美国、欧盟、日本、英国都高度重视高性能
    的头像 发表于 07-20 08:28 524次阅读
    带你了解什么是高<b class='flag-5'>性能</b>计算(<b class='flag-5'>HPC</b>)

    NVIDIA突破美国禁令,将在中东部署其高性能AI/HPC GPU加速

    Ooredoo达成合作协议,将在中东地区部署其高性能AI/HPC GPU加速卡。这一举动不仅标志着NVIDIA在中东市场的战略布局取得了重大
    的头像 发表于 06-24 14:47 825次阅读

    助力科学发展,NVIDIA AI加速HPC研究

    科学家和研究人员正在利用 NVIDIA 技术将生成式 AI 应用于代码生成、天气预报、遗传学和材料科学领域的 HPC 工作。
    的头像 发表于 05-14 09:17 390次阅读
    助力科学发展,<b class='flag-5'>NVIDIA</b> AI<b class='flag-5'>加速</b><b class='flag-5'>HPC</b>研究

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    1.8TB的GPUGPU互连速度、InfiniBand网络和NVIDIA Magnum IO™软件的第五代NVLink技术,GB200 NVL72性能显著
    发表于 05-13 17:16

    NVIDIA加速微软最新的Phi-3 Mini开源语言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库,用于优化从 PC 到云端的 NVID
    的头像 发表于 04-28 10:36 501次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 655次阅读

    搭载英伟达GPU,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

    基于GPU的向量索引和搜索加速能力,性能提升 50 倍。 Milvus 2.4 的 GPU 加速
    的头像 发表于 04-01 14:33 456次阅读
    搭载英伟达<b class='flag-5'>GPU</b>,全球领先的向量数据库公司Zilliz发布Milvus2.4向量数据库

    英伟达发布超强AI加速卡,性能大幅提升,可支持1.8万亿参数模的训练

    得益于NVIDIA每两年进行一次GPU架构升级以提高性能的策略,全新的基于Blackwell的加速卡比之前的H100更为强大,尤其适用于AI相关任务。
    的头像 发表于 03-19 12:04 750次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V100 G
    的头像 发表于 01-17 09:30 665次阅读

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地方工作的创意和技术专业人员能够访问虚拟化工作
    的头像 发表于 01-12 09:26 1024次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合方案呢?