MLPerf：边缘AI推理的新行业基准-电子发烧友网

这些数字重要吗？它们中的大多数都是在实验室类型的环境中生产的，其中理想的条件和工作负载允许被测设备（SUT）产生用于营销目的的最高分数。另一方面，大多数工程师可能不太关心这些理论可能性。他们更关心的是技术如何影响其推理设备的准确性、吞吐量和/或延迟。

将计算元素与特定工作负载进行比较的行业标准基准测试更有用。例如，图像分类工程师可以确定满足其性能要求的多个选项，然后根据功耗、成本等对其进行缩减。语音识别设计人员可以使用基准测试结果来分析各种处理器和内存组合，然后决定是在本地还是在云中合成语音。

但是，AI和ML模型，开发框架和工具的快速引入使这种比较复杂化。如图 1 所示，AI 技术堆栈中越来越多的选项也意味着可用于判断推理性能的排列呈指数级增长。这是在考虑模型和算法可以针对给定系统架构进行优化的所有方法之前。

图 1.AI开发堆栈中越来越多的选项使行业标准基准测试变得复杂。

毋庸置疑，制定这样一个全面的基准超出了大多数公司的能力或愿望。即使有人能够完成这一壮举，工程界真的会接受它作为“标准基准”吗？

机器学习成果：人工智能推理的更好基准

更广泛地说，在过去几年中，工业界和学术界已经开发了几个推理基准，但他们倾向于关注新兴人工智能市场的更多利基领域。一些例子包括EEMBC用于嵌入式图像分类和对象检测的MLMark，苏黎世联邦理工学院的AI基准测试，针对Android 智能手机上的计算机视觉，以及哈佛的Fathom基准测试，强调各种神经网络的吞吐量，但不是准确性。

对 AI 推理格局的更完整评估可以在 MLPerf 最近发布的推理 v0.5 基准测试中找到。MLPerf 推理是社区开发的测试套件，可用于测量 AI 硬件、软件、系统和服务的推理性能。这是来自30多家公司的200多名工程师合作的结果。

正如您对任何基准测试所期望的那样，MLPerf 推理定义了一套标准化工作负载，这些工作负载被组织成图像分类、对象检测和机器翻译用例的“任务”。每个任务都由与正在执行的功能相关的 AI 模型和数据集组成，其中图像分类任务支持 ResNet-50 和 MobileNet-v1 模型，对象检测任务利用具有 ResNet34 或 MobileNet-v1 主干的 SSD 模型，以及使用 GNMT 模型的机器转换任务。

除了这些任务之外，MLPerf 推理开始偏离传统基准测试的规范。由于准确性、延迟、吞吐量和成本的重要性在不同用例中具有不同的权重，因此 MLPerf 推理通过在移动设备、自动驾驶汽车、机器人和云这四个关键应用领域中根据质量目标对推理性能进行分级来权衡。

为了在尽可能接近在这些应用领域中运行的真实系统的上下文中有效地对任务进行分级，MLPerf 推理引入了一个负载生成器工具，该工具根据四种不同的方案生成查询流量：

样本大小为 1 的连续单流查询，在移动设备中很常见

连续的多流查询，每个流有多个样本，就像在延迟至关重要的自动驾驶汽车中发现的那样

请求随机到达的服务器查询，例如在延迟也很重要的 Web 服务中

执行批处理且吞吐量是一个突出考虑因素的脱机查询

负载生成器在测试准确性和吞吐量（性能）的模式下提供这些方案。图 2 描述了 SUT 如何从负载生成器接收请求，相应地将数据集中的样本加载到内存中，运行基准测试并将结果返回到负载生成器。然后，准确性脚本将验证结果。

图 2. MLPerf 推理基准测试依赖于负载生成器，该负载生成器根据许多实际方案查询被测系统（SUT）。

作为基准测试的一部分，每个 SUT 必须执行最少数量的查询，以确保统计置信度。

提高灵活性

如前所述，人工智能技术市场中使用的各种框架和工具是任何推理基准测试的关键挑战。前面提到的另一个考虑因素是调整模型和算法，以从AI推理系统中挤出最高的准确性，吞吐量或最低延迟。就后者而言，量化和图像重塑等技术现在是常见的做法。

MLPerf 推理是一种语义级基准测试，这意味着，虽然基准测试提供了特定的工作负载（或一组工作负载）以及执行它的一般规则，但实际实现取决于执行基准测试的公司。公司可以优化提供的参考模型，使用他们想要的工具链，并在他们选择的硬件目标上运行基准测试，只要它们保持在特定的指导方针之内。

但是，重要的是要注意，这并不意味着提交公司可以对MLPerf模型或数据集采取任何和所有自由，并且仍然有资格获得主要基准。MLPerf 推理基准分为两个部分 - 封闭式和开放式 - 封闭式部门对可以使用哪些类型的优化技术以及其他禁止的优化技术有更严格的要求。

要获得封闭分区的资格，提交者必须使用提供的模型和数据集，但允许量化。为了确保兼容性，封闭部门的参赛者不能使用重新训练或修剪的模型，也不能使用缓存或已调整为基准或数据集感知的网络。

另一方面，开放式划分旨在促进AI模型和算法的创新。仍需要向开放分区提交以执行相同的任务，但可以更改模型类型、重新训练和修剪其模型、使用缓存等。

尽管封闭式划分可能听起来很严格，但超过 150 个条目成功获得了 MLPerf 推理 v0.5 发布资格。图3和图4展示了参赛者使用的AI技术堆栈的多样性，这些堆栈几乎涵盖了从ONNX和PyTorch到TensorFlow，OpenVINO和Arm NN的各种处理器架构和软件框架。

图 3.数字信号处理器、FPGA、CPU、ASIC 和 GPU 都成功完成了 MLPerf 推理封闭式除法要求。

图 4. 人工智能软件开发框架，如 ONNX、毕拓、张量流、OpenVINO、Arm NN 等，被用于开发符合封闭分区基准测试的 MLPerf 推理系统。

消除评估中的猜测

虽然 MLPerf 推理的初始版本包含一组有限的模型和用例，但基准测试套件是以模块化、可扩展的方式构建的。这将使MLPerf能够随着技术和行业的发展而扩展任务，模型和应用领域，并且组织已经计划这样做。

最新的AI推理基准显然是目前可用的最接近真实世界AI推理性能的衡量标准。但随着它的成熟并吸引更多的提交，它也将成为成功部署的技术堆栈的晴雨表，以及新实施的试验场。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19461

浏览量
231423
AI

AI

+关注

关注
87

文章
31845

浏览量
270677
人工智能

人工智能

+关注

关注
1797

文章
47867

浏览量
240882

AI赋能边缘网关：开启智能时代的新蓝海

在数字化转型的浪潮中，AI与边缘计算的结合正掀起一场深刻的产业变革。边缘网关作为连接物理世界与数字世界的桥梁，在AI技术的加持下，正从简单的数据采集传输节点，进化为具备智能决策能力的

发表于 02-15 11:41

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •246次阅读

使用NVIDIA<b class='flag-5'>推理</b>平台提高<b class='flag-5'>AI</b><b class='flag-5'>推理</b>性能

生成式AI推理技术、市场与未来

OpenAI o1、QwQ-32B-Preview、DeepSeek R1-Lite-Preview的相继发布，预示着生成式AI研究正从预训练转向推理（Inference），以提升AI逻辑推理

发表于 01-20 11:16 •467次阅读

新品| LLM630 Compute Kit，AI 大语言模型推理开发平台

LLM630LLM推理，视觉识别，可开发，灵活扩展···LLM630ComputeKit是一款AI大语言模型推理开发平台，专为边缘计算和智能交互应用而设计。该套件的主板搭载爱芯AX63

发表于 01-17 18:48 •220次阅读

汉威科技集团推出Ai200边缘计算网关，引领智慧监测新潮流

推理与边缘计算能力于一身，能够高效处理和分析来自各类传感器的数据，为用户提供实时、准确的监测信息。这款网关不仅具备强大的数据处理能力，还具备高度的灵活性和可扩展性，能够轻松适应不同行业的特定需求。目前，

发表于 01-03 14:09 •674次阅读

MLCommons推出AI基准测试0.5版

开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版，这是该测试的第一个公开版本

发表于 12-12 16:47 •452次阅读

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储平台AS13000G7表现出

发表于 09-28 16:46 •270次阅读

什么是边缘AI？边缘AI的供电挑战

RECOM 的 RACM1200-V 采用数字通信，可轻松集成到边缘 AI设计中。

发表于 09-02 11:52 •575次阅读

智能边缘放大招！英特尔举办2024网络与边缘计算行业大会，边缘AI创新助力多元化应用

今日，第十七届英特尔网络与边缘计算行业大会在天津举行，超过400位生态伙伴和客户代表齐聚一堂，与英特尔共同探讨边缘AI的未来发展趋势，并介绍了众多基于英特尔

发表于 07-25 09:10 •3083次阅读

如何基于OrangePi AIpro开发AI推理应用

香橙派AIpro开发板采用昇腾AI技术路线，接口丰富且具有强大的可扩展性，提供8/20TOPS澎湃算力，可广泛使用于AI边缘计算、深度视觉学习及视频流AI分析、视频图像分析、自然语言处

发表于 06-04 14:23 •639次阅读

ai边缘盒子有哪些用途？ai视频分析边缘计算盒子详解

近年来，随着人工智能和边缘计算的发展，一种名为AI边缘盒子的新型设备正逐渐引起广泛关注。作为一种集成了边缘计算和AI算法处理能力的设备，

发表于 05-29 14:24 •1131次阅读

边缘侧AI芯片提供商超星未来完成数亿元 Pre-B轮融资

在AI产业生态中，计算芯片被视为行业的“卖水人”。依据云端/边缘端、训练/推理两大分类标准，AI芯片可划分为四个类别，其中

发表于 05-09 09:38 •621次阅读

开发者手机 AI - 目标识别 demo

识别demo: JS实现UI界面的功能； Native接口及实现主要为JS提供接口进行AI推理。通过Native方式完成推理的前处理、推理以及后处理，这里通过调用opencv、Mind

发表于 04-11 16:14

UL Procyon AI 发布图像生成基准测试，基于Stable Diffusion

UL去年发布的首个Windows版Procyon AI推理基准测试，以计算机视觉工作负载评估AI推理性能。新推出的图像生成测试将提供统一、精

发表于 03-25 16:16 •994次阅读

基于EdgeX+OpenVINO™的边缘智能融合网关YiFUSION实战

有边缘智能需求的大部分客户已经对AI推理和边缘计算有一定的了解，都希望可以将边缘数采和AI

发表于 02-29 18:18 •1357次阅读