MLPerf是边缘AI推理的新行业基准-电子发烧友网

最高额。翻牌。GFLOPS。AI 处理器供应商以多种方式计算其架构的最大推理性能。

这些数字还重要吗？它们中的大多数是在实验室类型的环境中生产的，理想的条件和工作负载允许被测设备（SUT）为营销目的生成尽可能高的分数。另一方面，大多数工程师可能不太关心这些理论上的可能性。他们更关心技术如何影响推理设备的准确性、吞吐量和/或延迟。

将计算元素与特定工作负载进行比较的行业标准基准更加有用。例如，图像分类工程师可以识别出多个满足其性能要求的选项，然后根据功耗、成本等因素对其进行缩减。语音识别设计人员可以使用基准测试结果来分析各种处理器和内存组合，然后决定是否合成本地或云中的语音。

但 AI 和 ML 模型、开发框架和工具的快速引入使此类比较变得复杂。如图 1 所示，AI 技术堆栈中越来越多的选项也意味着可用于判断推理性能的排列呈指数级增长。那是在考虑可以针对给定系统架构优化模型和算法的所有方式之前。

图 1. AI 开发堆栈中越来越多的选项具有复杂的行业标准基准测试。

不用说，开发这样一个全面的基准超出了大多数公司的能力或愿望。即使有能力完成这一壮举，工程界真的会接受它作为“标准基准”吗？

MLPerf：更好的 AI 推理基准

更广泛地说，工业界和学术界在过去几年中开发了几个推理基准，但他们倾向于关注新生人工智能市场的更多利基领域。一些例子包括 EEMBC 用于嵌入式图像分类和对象检测的 MLMark，苏黎世联邦理工学院针对 Android 智能手机上的计算机视觉的 AI 基准，以及哈佛的 Fathom 基准，它强调各种神经网络的吞吐量，但不强调准确性。

可以在 MLPerf 最近发布的 Inference v0.5 基准测试中找到对 AI 推理环境的更完整评估。MLPerf Inference 是一个社区开发的测试套件，可用于测量 AI 硬件、软件、系统和服务的推理性能。这是来自 30 多家公司的 200 多名工程师合作的结果。

正如您对任何基准测试所期望的那样，MLPerf Inference 定义了一套标准化的工作负载，这些工作负载被组织成用于图像分类、对象检测和机器翻译用例的“任务”。每个任务都由与正在执行的功能相关的 AI 模型和数据集组成，图像分类任务支持 ResNet-50 和 MobileNet-v1 模型，对象检测任务利用具有 ResNet34 或 MobileNet-v1 主干的 SSD 模型，以及使用 GNMT 模型的机器翻译任务。

除了这些任务之外，MLPerf 推理开始偏离传统基准的规范。由于不同用例对准确性、延迟、吞吐量和成本的重要性的权重不同，MLPerf Inference 通过根据移动设备、自动驾驶汽车、机器人和云这四个关键应用领域的质量目标对推理性能进行分级来进行权衡。

为了在尽可能接近在这些应用程序领域运行的真实系统的上下文中有效地对任务进行评分，MLPerf Inference 引入了负载生成器工具，该工具根据四种不同的场景生成查询流量：

样本大小为 1 的连续单流查询，在移动设备中很常见

每个流具有多个样本的连续多流查询，如在延迟至关重要的自动驾驶汽车中发现的那样

请求随机到达的服务器查询，例如在延迟也很重要的 Web 服务中

执行批处理且吞吐量是一个突出考虑因素的离线查询

Load Generator 以测试准确性和吞吐量（性能）的模式提供这些场景。图 2 描述了 SUT 如何接收来自负载生成器的请求，从而将数据集中的样本加载到内存中，运行基准测试并将结果返回给负载生成器。然后，准确性脚本会验证结果。

图 2. MLPerf Inference 基准测试依赖于负载生成器，该负载生成器根据许多实际场景查询被测系统（SUT）。

作为基准测试的一部分，每个 SUT 必须执行最少数量的查询以确保统计可信度。

提高灵活性

如前所述，人工智能技术市场中使用的各种框架和工具是任何推理基准测试的关键挑战。前面提到的另一个考虑因素是模型和算法的调整，以从 AI 推理系统中挤出最高的准确性、吞吐量或最低的延迟。就后者而言，量化和图像重塑等技术现在已成为常见做法。

MLPerf Inference 是语义级别的基准测试，这意味着，虽然基准测试提供了特定的工作负载（或一组工作负载）和执行它的一般规则，但实际实施取决于执行基准测试的公司。公司可以优化提供的参考模型，使用他们想要的工具链，并在他们选择的硬件目标上运行基准测试，只要它们保持在一定的指导范围内。

然而，重要的是要注意，这并不意味着提交公司可以随意使用 MLPerf 模型或数据集，并且仍然有资格获得主要基准。MLPerf 推理基准分为两个部分 - 封闭式和开放式 - 封闭式部分对可以使用哪些类型的优化技术以及禁止使用其他优化技术有更严格的要求。

要获得封闭部门的资格，提交者必须使用提供的模型和数据集，但允许量化。为确保兼容性，封闭部门的参赛者不能使用经过重新训练或修剪的模型，也不能使用经过调整以具有基准或数据集感知能力的缓存或网络。

另一方面，开放部门旨在促进人工智能模型和算法的创新。提交给开放部门仍然需要执行相同的任务，但可以更改模型类型、重新训练和修剪其模型、使用缓存等。

尽管封闭部门听起来很严格，但有 150 多个条目成功地获得了 MLPerf Inference v0.5 发布的资格。图 3 和图 4 展示了参赛者使用的 AI 技术堆栈的多样性，涵盖了几乎所有类型的处理器架构和软件框架，从 ONNX 和 PyTorch 到 TensorFlow、OpenVINO 和 Arm NN。

图 3. DSP、FPGA、CPU、ASIC 和 GPU 均成功完成了 MLPerf Inference 封闭划分要求。

图 4. AI 软件开发框架（如 ONNX、PyTorch、TensorFlow、OpenVINO、Arm NN 等）用于开发符合封闭划分基准的 MLPerf 推理系统。

将猜测排除在评估之外

虽然 MLPerf Inference 的初始版本包含一组有限的模型和用例，但基准测试套件是以模块化、可扩展的方式构建的。随着技术和行业的发展，这将使 MLPerf 能够扩展任务、模型和应用领域，并且该组织已经计划这样做。

最新的 AI 推理基准显然具有重要意义，因为它是目前可用的最接近真实世界 AI 推理性能的衡量标准。但随着它的成熟和吸引更多的提交，它也将成为成功部署技术堆栈的晴雨表和新实施的试验场。

为什么不让技术自己说话，而不是处理特定于供应商的数据表数字呢？毕竟，更少的猜测意味着更强大的解决方案和更快的上市时间。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19488

浏览量
231547
嵌入式

嵌入式

+关注

关注
5097

文章
19228

浏览量
308814
AI

AI

+关注

关注
87

文章
32052

浏览量
270938

AI变革正在推动终端侧推理创新

尖端AI推理模型DeepSeek R1一经问世，便在整个科技行业引起波澜。因其性能能够媲美甚至超越先进的同类模型，颠覆了关于AI发展的传统认知。

发表于 02-20 10:54 •165次阅读

AI赋能边缘网关：开启智能时代的新蓝海

在数字化转型的浪潮中，AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁，在AI技术的加持下，正从简单的数据采集传输节点，进化为具备智能决策能力的

发表于 02-15 11:41

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •278次阅读

使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

生成式AI推理技术、市场与未来

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布，预示着生成式AI研究正从预训练转向推理（Inference），以提升AI逻辑推理

发表于 01-20 11:16 •490次阅读

新品| LLM630 Compute Kit，AI 大语言模型推理开发平台

LLM630LLM推理，视觉识别，可开发，灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台，专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63

发表于 01-17 18:48 •288次阅读

汉威科技集团推出Ai200边缘计算网关，引领智慧监测新潮流

推理与边缘计算能力于一身，能够高效处理和分析来自各类传感器的数据，为用户提供实时、准确的监测信息。这款网关不仅具备强大的数据处理能力，还具备高度的灵活性和可扩展性，能够轻松适应不同行业的特定需求。目前，

发表于 01-03 14:09 •688次阅读

MLCommons推出AI基准测试0.5版

开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版，这是该测试的第一个公开版本

发表于 12-12 16:47 •478次阅读

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储平台AS13000G7表现出

发表于 09-28 16:46 •279次阅读

什么是边缘AI？边缘AI的供电挑战

RECOM 的 RACM1200-V 采用数字通信，可轻松集成到边缘 AI设计中。

发表于 09-02 11:52 •589次阅读

智能边缘放大招！英特尔举办2024网络与边缘计算行业大会，边缘AI创新助力多元化应用

今日，第十七届英特尔网络与边缘计算行业大会在天津举行，超过400位生态伙伴和客户代表齐聚一堂，与英特尔共同探讨边缘AI的未来发展趋势，并介绍了众多基于英特尔

发表于 07-25 09:10 •3091次阅读

如何基于OrangePi AIpro开发AI推理应用

香橙派AIpro开发板采用昇腾AI技术路线，接口丰富且具有强大的可扩展性，提供8/20TOPS澎湃算力，可广泛使用于AI边缘计算、深度视觉学习及视频流AI分析、视频图像分析、自然语言处

发表于 06-04 14:23 •654次阅读

边缘侧AI芯片提供商超星未来完成数亿元 Pre-B轮融资

在AI产业生态中，计算芯片被视为行业的“卖水人”。依据云端/边缘端、训练/推理两大分类标准，AI芯片可划分为四个类别，其中

发表于 05-09 09:38 •629次阅读

开发者手机 AI - 目标识别 demo

识别demo: JS实现UI界面的功能； Native接口及实现主要为JS提供接口进行AI推理。通过Native方式完成推理的前处理、推理以及后处理，这里通过调用opencv、Mind

发表于 04-11 16:14

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精

发表于 03-25 16:16 •1028次阅读

基于EdgeX+OpenVINO™的边缘智能融合网关YiFUSION实战

有边缘智能需求的大部分客户已经对AI推理和边缘计算有一定的了解，都希望可以将边缘数采和AI

发表于 02-29 18:18 •1378次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

MLPerf是边缘AI推理的新行业基准

评论

AI变革正在推动终端侧推理创新

AI赋能边缘网关：开启智能时代的新蓝海

使用NVIDIA推理平台提高AI推理性能

生成式AI推理技术、市场与未来

新品| LLM630 Compute Kit，AI 大语言模型推理开发平台

汉威科技集团推出Ai200边缘计算网关，引领智慧监测新潮流

MLCommons推出AI基准测试0.5版

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

什么是边缘AI？边缘AI的供电挑战

智能边缘放大招！英特尔举办2024网络与边缘计算行业大会，边缘AI创新助力多元化应用

如何基于OrangePi AIpro开发AI推理应用

边缘侧AI芯片提供商超星未来完成数亿元 Pre-B轮融资

开发者手机 AI - 目标识别 demo

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

基于EdgeX+OpenVINO™的边缘智能融合网关YiFUSION实战