机器学习性能谁来评判？-电子发烧友网

本期导读

MLPerf 组织最近发布了最新一轮机器学习性能测试结果，首次直接参加此次测试的“新力量” 赛灵思（Xilinx），在最新 MLPerf 推断基准测试中取得了“图像分类”最高的性能/峰值（Perf divided by peak TOPS）成绩。TOPS（每秒万亿次运算）是一个衡量性能效率的指标，意味着在给定 X 个硬件峰值计算量的情况下，赛灵思提供了最高的吞吐量性能。机器学习（ML）是支撑当今人工智能（AI）技术发展的核心算法，性能效率关乎各种 AI 应用的实现和落地。然而，玩家们你方唱罢我登场的机器学习性能之争，纸上公开的数据是否可信，效率高低谁来评判、如何评判？

带着这些问题，Aspencore 首席分析师邵乐峰先生连线赛灵思人工智能高级总监姚颂及人工智能高级经理罗霖先生，希望通过更深度地了解赛灵思此次参加测试的过程及结果，探索衡量机器学习芯片性能的基准及自适应计算平台的前景。

机器学习性能谁来评判？

当今 AI 芯片的评测标准，主流的有国际上的 MLPerf，国内有人工智能产业发展联盟的 AIIA DNN benchmark（人工智能端侧芯片基准测试评估方案）。

MLPerf 是用于测试机器学习（ML）硬件、软件以及服务的训练和推断性能的一套公开、标准化基准，该行业基准测试组织自 2018 年 5 月成立以来，得到了亚马逊、百度、Facebook、谷歌、哈佛大学、英特尔、微软和斯坦福大学等支持，旨在提供一个共同认可的过程，来衡量不同类型的加速器和系统如何快速有效地执行训练过的神经网络。

作为 AI 芯片领域一个重要的基准测试，MLPerf 主要包括训练和推断两方面的性能测试，并正在迅速成为业界衡量 ML 性能的事实标准。尽管目前看仍偏重于训练端，但赛灵思软件和人工智能高级经理罗霖认为未来推断侧性能测试的比例将会不断增加，尤其是 MLPerf 今年在测试中增加了新模式和手机/笔记本电脑这两种新类别。今年的 MLPerf Inference 基准测试（v0.7）的第二个版本，吸引了全球 1，200 多位同行进行评审。

从参测过程看 MLPerf 测试有何基准

此次赛灵思与 Mipsology 合作，参加了严格的“封闭”基准测试。该测试向厂商提供预训练网络和预训练权重，是一个真正的“Close Deviation”同类测评。罗霖解释说，同类测评就像是跳水比赛中和自选动作对应的标准动作，是实打实的基于同样预训练权重模型的对比。

测试系统使用赛灵思 Alveo U250 加速器卡，该卡以 Mipsology 优化的领域专用架构（DSA）为基础。基准测试测量了基于 Alveo 的定制 DSA 在离线模式下以 5，011 图像/秒的速度执行基于 ResNet-50 基准的图像分类任务的效率。ResNet-50 以图像/秒为单位测量图像分类性能。结果，赛灵思实现了最高的性能/峰值（TOPS，每秒万亿次运算）。这是一个衡量性能效率的指标，因此也就意味着，在给定 X 个硬件峰值计算量的情况下，赛灵思提供了最高的吞吐量性能。

此外，值得一提的是，MLPerf 的结果还显示，赛灵思与其在数据手册中公布的性能相比，实现了 100% 的可用 TOPS。而市场上的大多数厂商只能提供其峰值 TOPS 的一小部分，效率最高通常不超过 40%。这一令人印象深刻的结果表明，并非所有数据手册，或者说纸面上的原始峰值 TOPS，都能准确代表实际性能。

从测试看，还有一个重要的因素值得关注， ML 应用涉及的不仅仅是 AI 处理。它们通常需要 ML 预处理功能和后处理功能，这两者会竞争系统带宽，导致系统级瓶颈。而赛灵思自适应平台的强大之处就在于，它可以通过加速关键型非 AI 功能同时构建应用级数据流流水线，来避免系统瓶颈，从而加速整体应用。同时，赛灵思在 TensorFlow 和 Pytorch 框架的支持上也做了很多工作，使 Tensorflow 和 Pytorch 模型的硬件加速变得更容易。

Xilinx 首次直接参测意味着什么？

赛灵思首次直接参与 MLPerf 测试，意味着以 FPGA 为基础的 AI 解决方案已经日趋成熟，在推断应用中达到了业界领先的水平，日渐成为 AI 应用的主流玩家。在本次数据中心类别的封闭分区（Closed Division）参赛厂商中，除了 Nvidia 和 Intel 之外，赛灵思是唯一提交结果的芯片公司。

罗霖表示：AI 推断是一个快速增长的市场，例如自动驾驶和基于人工智能的视频监控，需要计算机视觉任务，如图像分类和目标检测。这些复杂的计算工作负载需要不同级别的吞吐量、延迟和功率才能高效运行，这就是赛灵思和自适应计算产品的亮点所在。

由于时间的原因，赛灵思在本次 MLPerf 测试中只提交了 3 项测试结果，除了上文提到的使用 U250 加速卡进行“图像分类”外，还使用 Alveo U280 加速卡进行“目标检测”，以及使用 Versal ACAP 平台进行“图像分类”。罗霖说，U250 参加的测试是在封闭分区所有参赛者采用一样的神经网络模型，一样的预训练权重，一样的预处理和后处理，就像体操比赛里面“标准动作”。相比之下，在开放分区（Open Division）类别中厂商允许使用自定义的方法对模型进行优化，包括重新训练，属于“百花齐放”类型。

但实际上，MLPerf Inference 0.7 版的 8 项测试内容赛灵思平台其实都能支持，在公司内部运行的一些非图像类模型，例如语音识别、自然语言处理等测试中，都有不错的表现。相信今后公司会参加更多类别的测试。

法国初创公司 Mipsology 是赛灵思此次测试的合作伙伴，在利用 FPGA 实现神经网络加速方面颇有建树。罗霖表示，FPGA 是一个开放的、灵活的计算加速平台，各种各样和 Mipsology 一样有能力的合作伙伴，都可以基于赛灵思相关硬件和工具链产品，开发出极具市场竞争力的产品。

TOPS 是衡量机器学习性能的唯一指标？

姚颂表示：机器学习（ML）应用程序不仅仅是 AI 处理，还需要 ML 前后的处理函数，因为这些函数会竞争系统带宽并导致系统级瓶颈。因此，最优秀的 AI 应用实现方案未必是速度最快的，它需要的是在效率最高的同时保持灵活性，必须是量身定制的，能够按需交付性能，不多不少。

众所周知，神经网络中的前一个计算结果通常都作为后一个计算的输入，AI 推断效率发挥不出来的主要原因是要花很多时间去内存中读取数据。

姚颂列举了两种常见的提升效率模式的做法：

一是通过将计算结果快速存储下来，避免对内存的反复读取和写入；

另一种是对神经网络进行分割处理，只调用与特定区块处理相关的数据，以流水线的方式掩盖掉内存读取的延时。

而具体到赛灵思的做法，罗霖更强调“端到端的优化”对高计算效率的影响。也就是说，首先要关注底层神经网络处理单元微架构的设计，包括计算乘加、数据存储/搬运、流水线调度等等；其次是中间层的工具链，例如在编译的时候是否对模型进行了优化，是否将与模型相关的计算和对存储的操作有效映射到微架构上；最后，再对上层应用进行优化。这一系列操作并非简单的硬件堆砌就能达到，而是要在性能、成本、功耗等多因素之间找到微妙的平衡，不能像孩子们玩的跷跷板，一边的升起，往往意味着另一边的下坠。

罗霖进一步解释说，一些解决方案非常适合 AI 推断，但并不适合整体应用处理。GPU 和 ASIC 往往能提供在纸面上看上去很高的 TOPS，但是 AI 推断性能通常需要与系统 I/O、预处理性能和后处理性能相匹配。如果非 AI 组件不能高效地在单芯片上实现，就需要多芯片解决方案。多芯片方案需要在器件之间传递数据，会降低系统性能并提高功耗。因此，一个能够高效实现整体应用的单器件在实际 AI 推断部署中拥有显著优势。

自适应计算平台有哪些典型应用？

赛灵思 Versal ACAP 自适应计算平台构建于能在制造后依然可以动态重配置的硬件上，包括 FPGA 等经过长期检验的技术，以及赛灵思 AI 引擎等最近的创新。其强大之处在于，不仅可以加速关键的人工智能和非人工智能功能，而且还可以构建应用程序级流媒体管道，以避免系统瓶颈，从而实现整个应用程序的加速。

为了能够更好地理解上述理论，罗霖和姚颂为我们列举了一些典型的应用场景：

自动驾驶

自动驾驶对超低延时是相当看重的，通常要求每一帧的延时不能超过 33 毫秒，这意味着真正能留给感知和识别的时间只有不到 10 毫秒，FPGA 可以做到几毫秒之内的延时，相比之下，GPU 就很难做到。

智能视频分析

“数据路径越复杂对 FPGA 越有利”，罗霖说，在智能视频分析中，不光有 CNN 推断，还包括检测、解码、图像预处理和后处理等许多工作，FPGA 器件能够做很多优化的、定制化的硬件加速。如果换成 GPU，尽管在处理 YOLOV3 模型时效果不错，但添加上其他任务后，就会明显感到“力不从心”，类似现象在语音类、推荐类应用中也很常见。

ResNet-50 Vs YOLOv3

YOLOv3 是用于各类目标检测与识别的神经网络模型，准确率高。支持者认为，ResNet-50 使用的 224×224 基准图像像素现在“几乎无人使用”，而 YOLOv3 使用 608×608，甚至 1440×1440 像素，属于高清处理，这对自动驾驶、机器人、银行安全及零售分析领域的客户来说十分重要。

姚颂不否认 YOLOv3 是在准确率和计算性能上取得不错平衡的模型，但他不认为这样就可以取代 ResNet-50 标准，例如在医疗影像、工业图像检测等领域就使用了包括 SSB 在内的其它模型。更重要的是，ResNet-50 的整体架构非常高效，很多互联网企业的神经网络都基于 ResNet-50 模块搭建。所以，“我们不应该只把眼光聚焦在 YOLOv3 模型上，一颗 AI 芯片，至少应该把 CNN 推断或者类似的神经网络架构都支持起来，否则人家会认为你只支持 YOLOv3 模型。”他说。

作者：邵乐峰

ASPENCORE 中国区首席分析师

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
455

文章
50818

浏览量
423709
AI

AI

+关注

关注
87

文章
30898

浏览量
269121
人工智能

人工智能

+关注

关注
1791

文章
47282

浏览量
238529
机器学习

机器学习

+关注

关注
66

文章
8418

浏览量
132649

如何选择云原生机器学习平台

当今，云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势，逐渐成为企业构建和部署机器学习应用的首选。然而，市场上的云原生机器

发表于 12-25 11:54 •99次阅读

ADS1281怎样评判采集到的结果是否准确？

各位专家我按照ADS1281做了一个转换板，目前也能采集到电压，但是不知道该怎样评判采集到的结果是否准确，请问各位专家该怎样判定我的板子是否达到了ADS1281这个芯片标称的性能呢，非常感激。

发表于 12-11 07:17

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析学习，这就使得它逐渐成为智能数据分析技术的创新源之一，

发表于 11-16 01:07 •408次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器

发表于 11-15 09:19 •458次阅读

如何评判电子烟PCBA方案优劣

如何评判电子烟方案优劣

发表于 10-16 16:21 •549次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

提高机器学习模型效果与性能的过程。而我对特征工程的理解就是从一堆数据里找出能表示这堆数据的最小数据集，而这个找出特征数据的过程就是信息提取。随后给出了一系列定义，包括特征的最小最大缩放、特征的标准化

发表于 08-14 18:00

对于一个放大电路如何评判它的指标性能好坏？

对于一个放大电路如何评判它的指标性能好坏？比如说利用信噪比、共模抑制比、失调电压、频带等指标如何去评判一个放大电路的性能好坏呢？是达到datesheet上的指标就可以了吗？另外，信噪比

发表于 08-01 06:09

机器学习中的数据分割方法

在机器学习中，数据分割是一项至关重要的任务，它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分

发表于 07-10 16:10 •1795次阅读

如何理解机器学习中的训练集、验证集和测试集

理解机器学习中的训练集、验证集和测试集，是掌握机器学习核心概念和流程的重要一步。这三者不仅构成了模型学习与评估的基础框架，还直接关系到模型

发表于 07-10 15:45 •4005次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器

发表于 07-02 11:25 •1048次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1382次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能

发表于 03-23 08:26 •625次阅读

怎样评判连接器的防水性能？LP系列工业级连接器IP68防水真硬核

水分有多种形态，气态、液态的水都会对工业级连接器的运行构成挑衅。因而工业级连接器为保障在涉水与潮湿环境下能可靠与安全地运行，多会从结构与制造工艺等方面去实现更高的防水性能。那么怎么去评判一款连接器

发表于 03-08 08:12 •649次阅读

微软推出ONNX Runtime Web，利用WebGPU优化浏览器机器学习性能

作为微软的 JavaScript 库，ONNX Runtime Web 使得网络开发者能在浏览器环境下部署机器学习模型，并提供多种硬件加速的后端支持。

发表于 03-05 14:23 •1103次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •990次阅读

搜索历史