0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用MLPerf 推理 1.1提升NVIDIA绩效领导力

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-08 16:03 次阅读

人工智能继续推动跨行业的突破性创新,包括消费互联网、医疗保健和生命科学、金融服务、零售、制造和超级计算。研究人员继续推动快速发展的模型在规模、复杂度和多样性方面的发展。此外,其中许多复杂的大规模模型需要为聊天机器人、数字助理和欺诈检测等人工智能支持的服务提供实时结果。

考虑到人工智能推理的广泛用途,评估性能对开发人员和基础设施管理人员提出了许多挑战。对于数据中心、 edge 和移动平台上的 AI 推理, MLPerf 推理 1.1 是一个行业标准基准,用于衡量计算机视觉医学成像、自然语言和推荐系统的性能。这些基准由人工智能行业领导者组成的联盟制定,为人工智能培训和推理提供了当今最全面的同行评审绩效数据集。

要在这一基准测试中完成大量测试,需要一个具有强大生态系统支持的全堆栈平台,无论是框架还是网络。 NVIDIA 是唯一一家提交所有数据中心和边缘测试并提供全面领先性能的公司

这项工作的一个重要副产品是,这些优化中的许多已经进入了推理开发工具,如TensorRT和 NVIDIA Triton 。用于高性能深度学习推理的 TensorRT SDK 包括一个深度学习推理优化器和运行时,为深度学习推理应用程序提供低延迟和高吞吐量。

Triton 推理服务器软件简化了人工智能模型在大规模生产中的部署。这种开源推理服务软件使团队能够在任何基于 GPUCPU 的基础设施上从本地存储或云平台的任何框架部署经过培训的人工智能模型。

按数字

在数据中心和边缘两大类中, NVIDIA 凭借 NVIDIA A100 张量核 GPU 和 NVIDIA A30 张量核 GPU 在性能测试中名列榜首。自从 MLPerf 推断 0.7 的结果发布以来,在过去一年中, NVIDIA 仅通过软件改进就提高了 50% 的性能。

在另一个行业中, NVIDIA 首次使用基于 GPU – 加速 ARM 的服务器提交数据中心类别,该服务器支持所有工作负载,并提供与类似配置的基于 x86 的服务器相同的结果。这些基于 ARM 的新提交为 GPU 加速 ARM 服务器创造了新的性能世界记录。这标志着这些平台的一个重要里程碑,因为它们现在已经在同行评审的行业标准基准中证明了自己,以提供市场领先的性能。它还展示了 NVIDIA ARM 软件生态系统的性能、多功能性和就绪性,以应对数据中心的计算挑战。

pYYBAGJP7FSAb4UmAABG9iwx2cg552.png

图 1 。使用 Ampere Altra CPU s 的基于 ARM 的服务器提供的性能与类似配置的基于 x86 的服务器相当

MLPerf v1.1 推理关闭;每个加速器的性能源自使用数据中心脱机中报告的加速器计数的各个提交的最佳 MLPerf 结果。 x86 服务器: 1.1-034 、 ARM 服务器: 1.1-033 MLPerf 名称和徽标是商标。

综观整体表现, NVIDIA 全面领先。图 2 显示了服务器场景的结果,其中使用泊松分布为测试中的系统生成推理工作,以更紧密地模拟真实世界的工作负载模式。

pYYBAGJP7FuAQr9CAACxiiMT8EI989.png

图 2 。 NVIDIA 与 CPU 纯服务器的性能比较

MLPerf v1.1 推理关闭;使用数据中心脱机和服务器中报告的加速器计数,从各个提交的最佳 MLPerf 结果中得出每个加速器的性能。高通 AI 100 : 1.1-057 和 1.1-058 ,英特尔至强 8380 : 1.1-023 和 1.1-024 , NVIDIA A30 : 1.1-43 , NVIDIA A100 ( ARM ): 1.1-033 , NVIDIA A100 ( x86 ): 1.1-047 。 MLPerf 名称和徽标是商标。

NVIDIA 比 CPU 纯服务器的性能全面提高了 104 倍。这种性能优势转化为对更大、更复杂的模型以及在对话 AI 、推荐系统和数字助理中实时作业中运行的多个模型进行推理的能力。

结果背后的优化

我们的工程团队实施了一些优化,使这些伟大的结果成为可能。首先,基于 ARM 的服务器和基于 x86 的服务器的所有这些结果都是使用 TensorRT 8 生成的,现在普遍可用。特别令人感兴趣的是双内核的非幂函数的使用,这是为了加速工作负载而实现的,比如 BERT – 大型单流场景测试。

NVIDIA 提交利用添加到 NVIDIA Triton 推理服务器的新主机策略功能。您可以在配置 NVIDIA Triton 服务器时指定主机策略,以在服务器应用程序中启用线程和内存固定。利用此功能, NVIDIA Triton 可以为系统中的每个 GPU 指定输入的最佳位置。最佳位置可以基于系统的非统一内存体系结构( NUMA )配置,在这种情况下,每个 NUMA 节点上都有一个查询样本库。

您还可以使用主机策略启用“从设备启动”配置设置,服务器将在选择执行的 GPU 上拾取输入。此设置还可以将网络输入直接输入 GPU 内存,完全绕过 CPU 和系统内存副本。

推理能力三人组: TensorRT , NVIDIA Triton 和 NGC

NVIDIA 推理领导力来自于构建最优秀的人工智能加速器,用于培训和推理。但同样重要的是支持所有 AI 框架和 800 多个 HPC 应用程序的 NVIDIA 端到端、全栈软件生态系统。

所有这些软件都可以在NGC、 NVIDIA 集线器上获得,该集线器带有 GPU ——用于深度学习、机器学习和 HPC 的优化软件。 NGC 负责所有管道,因此数据科学家、开发人员和研究人员可以专注于构建解决方案、收集 i NSight 并提供业务价值。

NGC 可通过您首选的云提供商的市场免费获得。在那里,您可以找到 TensorRT 和 NVIDIA Triton 的最新版本,这两个版本都有助于生成最新的 MLPerf 推断 1.1 结果。

关于作者

Dave Salvator 是 NVIDIA 旗下 Tesla 集团的高级产品营销经理,专注于超规模、深度学习和推理。

Jesus Corbal San Adrian 是 NVIDIA 计算架构组的杰出工程师,专注于深度学习推理 GPU 分析和优化。

Madhumitha Sridhara 是 TensorRT 团队的高级软件工程师,专注于使用 Triton 推理服务器的 NVIDIA MLPerf推理提交。她拥有卡内基梅隆大学计算机工程硕士学位和印度卡纳塔克邦苏拉特卡尔国家理工学院电子通信工程学士学位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1792

    文章

    47425

    浏览量

    238956
  • 机器学习
    +关注

    关注

    66

    文章

    8425

    浏览量

    132770
  • 深度学习
    +关注

    关注

    73

    文章

    5507

    浏览量

    121276
  • MLPerf
    +关注

    关注

    0

    文章

    35

    浏览量

    646
收藏 人收藏

    评论

    相关推荐

    借助NVIDIA GPU提升鲁班系统CAE软件计算效率

    本案例中鲁班系统高性能 CAE 软件利用 NVIDIA 高性能 GPU,实现复杂产品的快速仿真,加速产品开发和设计迭代,缩短开发周期,提升产品竞争
    的头像 发表于 12-27 16:24 158次阅读

    纳芯微电子荣获“战略性人才发展与领导力培育卓越奖”

    人力资源优秀案例征集活动人气赛道的获奖名单。 经过专业评审的严格筛选, 纳芯微凭借在战略性人才与领导力培养方面的杰出表现,荣获了“战略性人才发展与领导力培育卓越奖” 。 而这也是纳芯微第二年在该活动中斩获奖项, 去年我们荣
    的头像 发表于 12-16 09:13 327次阅读
    纳芯微电子荣获“战略性人才发展与<b class='flag-5'>领导力</b>培育卓越奖”

    NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

    丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise,为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中,还是在高并发推理场景下,都能够确保项
    的头像 发表于 10-27 10:03 236次阅读
    <b class='flag-5'>NVIDIA</b>助力丽蟾科技打造AI训练与<b class='flag-5'>推理</b>加速解决方案

    如何利用海外动态IP提升全球市场触达

    利用海外动态IP提升全球市场触达,是一个涉及多个方面的策略。
    的头像 发表于 09-27 08:36 298次阅读

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高
    的头像 发表于 08-23 15:48 467次阅读

    英伟达推出全新NVIDIA AI Foundry服务和NVIDIA NIM推理微服务

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与同样刚推出的 Llama 3.1 系列开源模型一起,为全球企业的生成式 AI
    的头像 发表于 07-25 09:48 731次阅读

    博联智能荣获“2024全屋智能领导力品牌”奖

    近日,第八届葵花奖智能家居评选颁奖盛典在中国建博会(广州)广交会展馆圆满落幕,BroadLink博联智能凭借卓越的技术创新力和品牌荣获“2024全屋智能领导力品牌”奖!
    的头像 发表于 07-19 17:34 1057次阅读

    DigiKey 在 2024 EDS 领导力峰会上斩获供应商授予的多个最高奖项

    全球供应品类丰富、发货快速的商业现货技术元件和自动化产品分销商 DigiKey 日前宣布,在 5 月 21 日至 23 日于拉斯维加斯举办的 2024 年 EDS 领导力峰会上,共计获得了供应商
    发表于 06-26 15:30 217次阅读
    DigiKey 在 2024 EDS <b class='flag-5'>领导力</b>峰会上斩获供应商授予的多个最高奖项

    英伟达推出AI模型推理服务NVIDIA NIM

    英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程,为全球的2800万英伟达开发者提供前所未有的便利。
    的头像 发表于 06-04 09:15 690次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    ,同时降低水消耗。利用NVIDIA Blackwell架构的高带宽内存性能、NVLink-C2C和专用解压缩引擎,GB200大幅提高关键数据库查询的速度,比CPU提升18倍,并将总体拥有成本(TCO
    发表于 05-13 17:16

    沃尔沃利用英伟达的SoC和AI来提升自动驾驶的安全性

    在2024年英伟达GPU技术大会(NVIDIA GTC 2024)上,沃尔沃介绍了如何利用人工智能和日益提升的算提升自动驾驶的安全性。
    的头像 发表于 05-08 14:38 1218次阅读

    莱迪思Avant™ FPGA平台荣获2024年环境和能源领导力

    莱迪思半导体近日宣布莱迪思Avant™ FPGA平台荣获2024年环境和能源领导力奖。莱迪思Avant因其在商业和基础设施领域中展现出领先的低功耗、高性能和小尺寸特性而获得认可。
    的头像 发表于 04-30 14:28 485次阅读
    莱迪思Avant™ FPGA平台荣获2024年环境和能源<b class='flag-5'>领导力</b>奖

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热
    的头像 发表于 04-20 09:39 759次阅读

    使用NVIDIA Triton推理服务器来加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。
    的头像 发表于 02-29 14:04 594次阅读

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V1
    的头像 发表于 01-17 09:30 717次阅读