0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基准分数突出了广泛的机器学习推理性能

张艳 来源:Lucia_nie 作者:Lucia_nie 2022-07-21 10:23 次阅读

继今年早些时候发布的训练基准分数之后,MLPerf 发布了其推理基准的第一组基准分数。

与目前有 5 家公司的 63 份参赛作品的训练轮相比,更多的公司提交了基于 MobileNet、ResNet、Yolo 等神经网络架构的推理结果。总共有来自 14 个组织的 500 多个分数进行了验证。这包括来自几家初创公司的数据,而一些知名初创公司仍然明显缺席。

在封闭的部门,其严格的条件可以直接比较系统,结果显示性能差异为 5 个数量级,并且在估计的功耗方面跨越三个数量级。在开放部门中,提交可以使用一系列模型,包括低精度实现。

Nvidia 在封闭部门的所有类别中都获得了商用设备的第一名。其他领先者包括数据中心类别的 Habana Labs、谷歌和英特尔,而 Nvidia 在边缘类别中与英特尔和高通竞争。

pYYBAGLXT8uAc4TSAAEshK1KHAk991.jpg

英伟达用于数据中心推理的 EGX 平台(图片:英伟达)

Moor Insights and Strategy 分析师 Karl Freund 表示:“Nvidia 是唯一一家拥有生产芯片、软件、可编程性和人才的公司,可以发布跨 MLPerf 范围内的基准测试,并在几乎所有类别中获胜。” “GPU 的可编程性为未来的 MLPerf 版本提供了独特的优势……我认为这展示了 [Nvidia] 实力的广度,以及挑战者的利基性质。但随着时间的推移,许多挑战者会变得成熟,因此英伟达需要继续在硬件和软件方面进行创新。”

Nvidia 发布的图表显示了其对结果的解释,在商用设备的封闭部门的所有四个场景中,它都位居第一。

这些场景代表不同的用例。离线和服务器场景用于数据中心的推理。离线场景可能代表大量图片的离线照片标记并测量纯吞吐量。服务器场景代表一个用例,其中包含来自不同用户的多个请求,在不可预测的时间提交请求,并在固定时间测量吞吐量。边缘场景是单流,它对单个图像进行推理,例如在手机应用程序中,以及多流,它测量可以同时推理多少个图像流,用于多摄像头系统。

公司可以为选定的机器学习模型提交结果,这些模型在四种场景中的每一种中执行图像分类、对象检测和语言翻译。

数据中心结果

“从数据中心的结果来看,Nvidia 在服务器和离线类别的所有五个基准测试中均名列前茅,”Nvidia 加速计产品管理总监 Paresh Kharya 说。“在商用解决方案中,我们的 Turing GPU 的性能优于其他所有人。”

Kharya 强调了这样一个事实,即英伟达是唯一一家在数据中心类别的所有五个基准模型中提交结果的公司,而对于服务器类别(这是更困难的情况),英伟达的性能相对于其竞争对手有所提高。

pYYBAGLXT9CAY9DfAADuOqQxTLg534.jpg

选定的数据中心基准测试结果来自封闭部门,在商用设备类别中处于领先地位。结果显示相对于每个加速器的 Nvidia 分数。X 代表“未提交结果”(图片:Nvidia)

英伟达在数据中心领域最接近的竞争对手是拥有Goya 推理芯片的以色列初创公司 Habana Labs 。

分析师 Karl Freund 表示:“Habana 是唯一一个全面生产高性能芯片的挑战者,当下一个 MLPerf 套件有望包含功耗数据时,它应该会做得很好。”

Habana Labs 在接受 EETimes 采访时指出,基准分数纯粹基于性能——功耗不是衡量标准,实用性也不是(例如考虑解决方案是被动冷却还是水冷),成本也不是。

poYBAGLXT9mAV4bIAAD-pxpLakQ911.jpg

Habana Labs PCIe 卡采用 Goya 推理芯片(图片:Habana Labs)

Habana 还使用开放分区来展示其低延迟能力,比封闭分区进一步限制延迟,并为多流场景提交结果。

边缘计算结果

在边缘基准测试中,Nvidia 赢得了所有四个在封闭部门提交商用解决方案的类别。高通的 Snapdragon 855 SoC 和英特尔的 Xeon CPU 在单流类别中落后于英伟达,高通和英特尔都没有提交更困难的多流场景的结果。

poYBAGLXT9-AeURxAADPVeR-l4A989.jpg

选定的边缘基准测试结果来自封闭部门,在商用设备类别中处于领先地位。结果显示相对于每个加速器的 Nvidia 分数。X 代表“未提交结果”(图片:Nvidia)

“预览”系统(尚未商业化)的结果将阿里巴巴 T-Head 的含光芯片与英特尔的 Nervana NNP-I、Hailo-8和 Centaur Technologies 的参考设计进行了对比。与此同时,研发类别的特色是一家隐秘的韩国初创公司 Furiosa AI,对此我们知之甚少。

MLPerf 网站上提供了最近的推理分数以及早期的训练分数。



审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 基准测试
    +关注

    关注

    0

    文章

    19

    浏览量

    7593
  • 机器学习
    +关注

    关注

    66

    文章

    8422

    浏览量

    132739
收藏 人收藏

    评论

    相关推荐

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    共同挑战:如何从高维噪声数据中提取有效特征?如何平衡模型复杂度和计算效率?如何保证系统在真实环境中的稳定性?书中提出的技术方案对我的工作很有启发。多模态融合策略可用于处理异构数据源,元学习思想可指导增量学习系统设计,而模型优化方法则有助于提升
    发表于 12-24 15:03

    NVIDIA Jetson Orin Nano开发者套件的新功能

    生成式 AI 领域正在迅速发展,每天都有新的大语言模型(LLM)、视觉语言模型(VLM)和视觉语言动作模型(VLA)出现。为了在这一充满变革的时代保持领先,开发者需要一个足够强大的平台将云端的最新模型无缝部署到边缘,从而获得基于 CUDA 的优化推理性能和开放式机器
    的头像 发表于 12-23 12:54 187次阅读
    NVIDIA Jetson Orin Nano开发者套件的新功能

    利用Arm Kleidi技术实现PyTorch优化

    PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来,Arm 与合作伙伴通力协作,持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 技术
    的头像 发表于 12-23 09:19 186次阅读
    利用Arm Kleidi技术实现PyTorch优化

    解锁NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,确保您的 NVIDIA GPU 能发挥出卓越的推理性能
    的头像 发表于 12-17 17:47 185次阅读

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    热门的深度学习框架尤为突出,许多企业均会选择其作为开发 AI 应用的库。通过部署 Arm Kleidi 技术,Arm 正在努力优化 PyTorch,以加速在基于 Arm 架构的处理器上运行 LLM 的性能。Arm 通过将 Kle
    的头像 发表于 12-03 17:05 826次阅读
    Arm KleidiAI助力提升PyTorch上LLM<b class='flag-5'>推理性能</b>

    Arm成功将Arm KleidiAI软件库集成到腾讯自研的Angel 机器学习框架

    KleidiAI 技术融入腾讯混元自研的 Angel 机器学习框架。这一合作旨在提高移动端人工智能 (AI) 服务的推理性能和效率,为用户提供卓越
    的头像 发表于 11-24 15:33 711次阅读

    澎峰科技高性能大模型推理引擎PerfXLM解析

    模型的高性能推理框架,并受到广泛关注。在历经数月的迭代开发后,澎峰科技重磅发布升级版本,推出全新的高性能大模型推理引擎:PerfXLM。
    的头像 发表于 09-29 10:14 492次阅读
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    近期,第五代英特尔®至强®可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试(AISBench)。英特尔成为首批通过AISBench大语言模型(LLM)推理性能测试的企业
    的头像 发表于 09-06 15:33 354次阅读
    开箱即用,AISBench测试展示英特尔至强处理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社区是中国最具影响力的模型开源社区,致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM,大大提高了大语言模型的推理性能,方便了模型应用部署,提高了大模型产业应用效率,更大规模地释放大模型的应用价值。”
    的头像 发表于 08-23 15:48 462次阅读

    学习笔记|如何移植NCNN

    队的步伐,揭秘他们如何进行NCNN的交叉编译,并在ELF1开发板上演绎实践,以此验证模型推理性能。1、从GitHub下载NCNN源码:https://github.c
    的头像 发表于 05-29 10:06 1125次阅读
    <b class='flag-5'>学习</b>笔记|如何移植NCNN

    自然语言处理应用LLM推理优化综述

    当前,业界在将传统优化技术引入 LLM 推理的同时,同时也在探索从大模型自回归解码特点出发,通过调整推理过程和引入新的模型结构来进一步提升推理性能
    发表于 04-10 11:48 605次阅读
    自然语言处理应用LLM<b class='flag-5'>推理</b>优化综述

    UL Procyon AI 发布图像生成基准测试,基于Stable Diffusion

    UL去年发布的首个Windows版Procyon AI推理基准测试,以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精确且易于理解的工作负载,用以保证各支持硬件间公平、可比的
    的头像 发表于 03-25 16:16 898次阅读

    深度探讨VLMs距离视觉演绎推理还有多远?

    通用大型语言模型(LLM)推理基准:研究者们介绍了多种基于文本的推理任务和基准,用于评估LLMs在不同领域(如常识、数学推理、常识
    发表于 03-19 14:32 367次阅读
    深度探讨VLMs距离视觉演绎<b class='flag-5'>推理</b>还有多远?

    瑞萨电子宣布推出一款面向高性能机器人应用的新产品—RZ/V2H

    具有10TOPS/W能效的新一代AI加速器无需冷却风扇即可提供高达80TOPS的AI推理性能
    的头像 发表于 03-01 10:41 849次阅读
    瑞萨电子宣布推出一款面向高<b class='flag-5'>性能</b><b class='flag-5'>机器</b>人应用的新产品—RZ/V2H

    Torch TensorRT是一个优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在一起的原因,它是一个端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习
    的头像 发表于 01-09 16:41 1764次阅读
    Torch TensorRT是一个优化PyTorch模型<b class='flag-5'>推理性能</b>的工具