你知道TinyML运行效能谁说了算吗？-电子发烧友网

在AI芯片或神经加速处理器(Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA)领域中，大家也都说自家的芯片世界最棒，对手看不到车尾灯，难道没有一个较为公正衡量芯片运行（推论）效能，就像手机跑分软件一样，让大家比较信服的基准吗？

其实在AI芯片领域中所谓的「效能」，可能因关心的重点不同而会有不同定义和解读。分别可从硬件每秒可执行乘加的次数(又可细分FP32,FP16及INT8等)、对于特定模型在指定推论精度下每秒可执行次数或推论一次所需时间（包含有无模型优化处理）、特定模型推论功耗（推论一次耗费焦耳数）、每瓦特可执行乘加指令次数及其它特定规范时的表现，甚至有用每块美金获得算力来当成基准。所以常会遇到谁也不服谁，老王卖瓜自卖自夸的现象。

目前较被大家接受的就是ML Commons所提出的MLPerf规范，其中包含训练及推论两大项，而推论部份又可细分为数据中心(Datacenter)、边缘(Edge)、行动(Mobile)及微型(Tiny,大多为MCU)。前不久(2023/6/27)才刚公布了Tiny v1.1测试结果报告，接下来就帮大家解读一下这份报告，让大家能更了解未来单芯片运行AI的方向及可行性。

评测场景及项目

目前ML Commons在Tiny部份先前已经过三轮(v0.5, v0.7, v1.0)测试，此次公布的是v1.1结果。测试时分为封闭(Closed)及开放(Open)型式，前者依官方规范测，而后者厂商可提出依自己规范测试更优的结果，不过不是每轮评测都会有开放型式。

目前主要评测项目如Fig.1 所示，共有四个项目，包含关键词侦测(Keyword Spoting, KS)、视觉唤醒字(Visual Wake Words, VW)、影像分类(Image Classification, IC)及异常侦测(Anomaly Detection, AD)。而每个项目都是采单串流数据(Single Stream)方式进行，即推论完一笔再取下一笔进行推论。依照不同项目，分别使用对应的数据集和模型，并在指定的推论质量下进行评量。

Fig.1 MLPerf v1.1 工作场景及效能评量项目

参与评测公司、硬件及软件

本次参与评测的项目共有32项，以下依不同项目分别介绍。

参与评测公司：共有10家，Krai, Nuvoton(新唐科技), STMicroelectronics(简称STM), Skymizer(台湾发展软件科技), cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang（个人）。

参与评测开发板：共有14种，规格下如下所示。

STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7(DSP+FPU) @280MHz

STM NUCLEO-L4R5ZI, Arm Cortex-M4(DSP+FPU) @120MHz

STM NUCLEO-U575ZI-Q, Arm Cortex-M33(DSP+FPU) @160MHz

STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz

STM DISCO-F746NG, Arm Cortex-M7(DSP+FPU) @216MHz

Nordic nRF5340 DK, Arm Cortex-M33(DSP+FPU) @128MHz

Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz

DIGILENT Cora Z7, Arm Cortex-A9 @667MHz

DIGILENT ZC706, Arm Cortex-A9 @650MHz

DIGILENT ZedBoard, Arm Cortex-A9 @650MHz

DIGILENT ZyBo, Arm Cortex-A9 @650MHz