一款基准测量工具的雏形——MLPerf-电子发烧友网

AI基准大战已经开始。

5月2日，由各大领先的科技公司和大学组成的团队发布了一款基准测量工具的雏形——MLPerf，其目的是测量各种AI框架和芯片中不同机器学习任务的训练速度和推理时间。

在这一任务的参与者中，有许多知名公司和大学，其中既有谷歌、英特尔、百度、AMD这样的巨头，也有一些AI硬件创企，例如SambaNova和Wave Computing。同时还有世界顶尖大学：斯坦福大学、哈佛大学、加州大学伯克利分校、明尼苏达大学和多伦多大学。

MLPerf的诞生是小部分公司自我组织进行产品对比的结果。上周，RiseML的博客对比了谷歌的TPUv2和NVIDIA V100的性能。5月4日，英特尔发表博客，展示了为机器翻译所用的RNN的数据，题目称“英特尔Xeon大规模处理器表现出令人惊讶的推理性能”。这种对比会给人一些参考，但通常也会让人觉得供应商自认为比其他厂商优越。而一个标准化的基准可以让测试简单化，得到人们想要的结果。

除此之外，想要跟踪记录各大公司和创企的芯片制造以及软件更新是非常困难的，更不要说在市场的夸大作用下还能进行真实评估了。某些芯片厂商经常承诺达到了革命性的提速，但从来不透露产品规格（咳咳，英特尔注意）。

在很长一段时间内，人们都在讨论是否有必要设立一个有意义的AI基准。支持者认为，标准的缺失限制了AI的应用。MLPerf的推动者之一吴恩达表示：“AI正在改变多个行业，但是为了发挥它最大的潜能，我们仍需要更快的硬件和软件。”支持者们希望基准的确立能帮助AI开发者创造出更好的产品，让使用者充分了解所需产品。

MLPerf声明它的基础目标是：

用公平、有帮助的测量方法加速机器学习的发展

对各竞争系统进行公平对比，以鼓励机器学习的发展

保证让所有人都能参与基准评比

既服务于商业群体，也服务于研究领域

基准要可复制，确保结果的可靠

MLPerf是仿效过去其他的基准测试，例如SPEC（The Standard Performance Evaluation Corporation）。该基准于1988年由一家计算公司的财团提出，它有效提高了通用计算的速度。而MLPerf结合了此前许多基准的标准，例如SPEC的程序，SORT用于对比和培育新思想的方法，DeepBench对软件应用的评估，以及DAWNBench的精确度标准。

Intersect360的CEO Addison Snell注意到：“现在许多企业都想部署AI，所以推出一套中立的基准非常重要，尤其在多种技术争相竞争的时代。但是，AI领域多种多样，我不禁怀疑是否最后只剩一种标准。想想五年前人们对大数据和分析的热情，尽管人人都想定义它，但是至今也没有一个通用的衡量标准。我认为AI也会面临这种情况。”

Hyperion研究公司的高级研究副总裁Steve Conway认为：“MLPerf是一款有用、优秀的工具。因为近些年一直缺少针对买卖双方的真正标准。这个基准似乎是针对人工智能早期问题指定的，大多都是有边界问题。后来我们需要其他标准，因为人工智能开始出现了无边界的问题。有边界的问题比较简单，如语音、图像识别或游戏。而无界线问题包括癌症诊断和阅读磁核共振报告；现在，人工智能能为复杂问题提出推荐方案了。“

MLPerf现已在GitHub上发布，但仍处于初期阶段，为α版本，未来将在许多方面得到改进。目前，MLPerf套件上能进行测试的有七个方面：

每个参考都提供了以下内容：至少在一个框架中实现模型的代码；一个可在container中运行基准测试的Dockerfile；一个可下载适当数据集的脚本；一个可以运行并计时模型训练的脚本；数据集、模型和机器设置的文档记录。

根据GitHub上的记录，基准测试已经在以下配置中进行测试：

16个CPU，一个NVIDIA P100

Ubuntu 16.04，包括具有NVIDIA支持的docker

600GB的硬盘（尽管很多基准要求的硬盘更小）

在这样一个年轻的市场，如果有更多的AI基准出现，那将变得很有趣。例如，斯坦福大学是MLPerf的其中一个成员，他最近运行了第一个DAWNBenchv1深度学习结果。

斯坦福报道说：“2018年4月20日表示第一个衡量深度学习端到端性能的基准和竞争的开始：测量深度学习任务达到最佳精确度时所需要的时间和成本是多少，以及在这个最先进的精确度水平下进行推理的成本是多少。对端到端性能的关注提供了一种客观的方法，用于对计算框架、硬件、优化算法、超参数设置以及影响性能的其他因素进行标准化。”

DAWN的一个竞争对手——fast.ai（一家提供人工智能培训和开发人工智能软件工具的初创公司）在HPCwire上宣传它的产品性能。所以这些基准很重要，应该认真对待，像MLPerf这样的工具能帮助清除AI产品对比中的干扰因素。

“基准提高了产品可信度，并展示了更好的性能或能带来更多益处的地方。如果你正在考虑为一个数百万美元的项目使用硬件加速器或软件框架，那么你会不会更喜欢’榜上有名’的产品？”谷歌工程师Peter Mattson表示。

MLPerf希望用可复制的、公平可靠的基准测量方法来推动机器学习行业和研究的发展。产品之间的对比还应促进供应商和学者之间的竞争。同时还应该为没人提供做实验的条件，让更多人参与其中。

Mattson补充道：“基准在短期内很重要，因为不管是对研发公司还是想要购买产品的公司来说，硬件是一项巨大的投资。长期来看，基准有助于研究者和供应商将性能作为共同的发展目标，这样才能解锁更多机器学习的能量，造福更多人。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31043

浏览量
269392
机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132753
深度学习

深度学习

+关注

关注
73

文章
5506

浏览量
121260
MLPerf

MLPerf

+关注

关注
0

文章
35

浏览量
646

原文标题：MLPerf——机器学习新基准能否驱动AI向前？

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

使用ADS1220设计一款电路用来采集一个电阻桥式传感器，使用内部的2.048V基准作为基准电压？

请教一个问题。我使用ADS1220设计一款电路用来采集一个电阻桥式传感器。设计的时候我想使用内部的2.048V基准作为基准电压，以下为电路

发表于 01-06 06:00

MLCommons推出AI基准测试0.5版

开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版，这是该测试的第一个公开版本

发表于 12-12 16:47 •337次阅读

ADS131A04内部基准电压有毛刺是怎么回事？

目前在使用ADS131A04设计一款数据采集电路，使用内部基准电压2.442V，使用TPS79133给ADS131供电。 1.在ADC采集数据的时候对VREFP引脚电压测量发现有一个

发表于 12-03 06:06

一款高性能内网穿透工具——P2link

P2link是一款面向高性能需求的内网穿透工具，采用了P2P技术和穿透协议，各节点（用户或设备）可以直接进行数据传输和通信，而不需要通过中心服务器，能够实现局域网内部设备与外网的快速、高效连接

发表于 11-08 10:59 •693次阅读

<b class='flag-5'>一款</b>高性能内网穿透<b class='flag-5'>工具</b>——P2link

如果设计一款桌面款的机器玩具，最吸引人的外观与功能要有哪些？

初步设想制作如下其中一款，有感兴趣的朋友可以帮提提意见。 A一款圆敦敦的音响状的“个人日程助手”，具备番茄闹钟、音乐播放、减压交互、语言对话、工作日报生成。 B一款迷你瓦利机器人，有一

发表于 10-19 18:25

DaVinci系统级基准测试测量

电子发烧友网站提供《DaVinci系统级基准测试测量.pdf》资料免费下载

发表于 10-16 11:32 •0次下载

DaVinci系统级<b class='flag-5'>基准</b>测试<b class='flag-5'>测量</b>

浪潮信息AS13000G7荣获MLPerf™ AI存储基准测试五项性能全球第一

北京2024年9月27日 /美通社/ -- 9月25日，MLCommons协会发布最新MLPerf™ Storage v1.0 AI存储基准测试成绩。浪潮信息分布式存储平台AS13000G7表现出

发表于 09-28 16:46 •221次阅读

浪潮信息AS13000G7荣获<b class='flag-5'>MLPerf</b>™ AI存储<b class='flag-5'>基准</b>测试五项性能全球第<b class='flag-5'>一</b>

TPS手指触感测量一款可以精准测量力和时间变化的系统

TPS手指触感测量一款可以精准测量力和时间变化的系统它是一款高灵敏度传感器，采用高敏感电容式压力传感器，能够精确感知手指与物体接触时的微小压力变化，甚至可以检测到非常细微的触感差异，

发表于 09-13 09:46

Adobe将推出一款人工智能视频生产工具

Adobe即将在今年晚些时候震撼发布其最新力作——Adobe Firefly Video Model，一款专为创意专业人士打造的生成式视频创作与编辑神器。作为Firefly图像生成系列的新成员，该工具以测试版形式率先亮相，旨在通过人工智能技术，为视频创作领域带来前所未有的

发表于 09-12 16:37 •500次阅读

精密串联基准中的噪声测量技术

电子发烧友网站提供《精密串联基准中的噪声测量技术.pdf》资料免费下载

发表于 08-23 10:16 •0次下载

精密串联<b class='flag-5'>基准</b>中的噪声<b class='flag-5'>测量</b>技术

如何设计一款50HZ陷波电路？

如何设计一款50HZ陷波电路，有现成的参考电路设计吗

发表于 07-30 06:12

Synopsys推出一款低功耗静态规则检查工具—VCLP

VCLP（VC Low Power）是Synopsys提供的一款低功耗静态规则检查工具，它能够帮助验证和清洁IEEE 1801 Unified Power Format (UPF)低功耗设计意图，并确保UPF中的功耗意图与实现一

发表于 04-15 11:25 •2526次阅读

Synopsys推出<b class='flag-5'>一款</b>低功耗静态规则检查<b class='flag-5'>工具</b>—VCLP

一款适合嵌入式工程师使用的在线工具

一款适合嵌入式工程师使用的在线工具，工具有如下功能，如下图所示： 1. 报文校验功能，如下图所示 2. UDP服务端测试工具：该UDP服务端

发表于 04-09 22:20

安森美推出一款基于PLECS的具有独特功能的领先在线仿真工具

Elite Power仿真工具是安森美(onsemi)推出的一款基于PLECS的具有独特功能的领先在线仿真工具，适用于软/硬开关应用，使工程师在开发周期的早期阶段，

发表于 03-20 09:58 •683次阅读

使用LTC6655系列作为基准源设计一款采集器，如何测量设计后基准源的1/f噪声？

最近在设计中使用LTC6655系列作为基准源设计一款采集器，LTC6655的datasheet的理论值为

发表于 01-08 07:09

搜索历史

一款基准测量工具的雏形——MLPerf

评论