0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

你知道TinyML运行效能谁说了算吗?

jf_cVC5iyAO 来源:易心Microbit编程 2023-08-03 16:06 次阅读

AI芯片或神经加速处理器(Neural Network Processing Unit, NPU或Deep Learning Accelerator, DLA)领域中,大家也都说自家的芯片世界最棒,对手看不到车尾灯,难道没有一个较为公正衡量芯片运行(推论)效能,就像手机跑分软件一样,让大家比较信服的基准吗?

其实在AI芯片领域中所谓的「效能」,可能因关心的重点不同而会有不同定义和解读。分别可从硬件每秒可执行乘加的次数(又可细分FP32,FP16及INT8等)、对于特定模型在指定推论精度下每秒可执行次数或推论一次所需时间(包含有无模型优化处理)、特定模型推论功耗(推论一次耗费焦耳数)、每瓦特可执行乘加指令次数及其它特定规范时的表现,甚至有用每块美金获得算力来当成基准。所以常会遇到谁也不服谁,老王卖瓜自卖自夸的现象。

目前较被大家接受的就是ML Commons所提出的MLPerf规范,其中包含训练及推论两大项,而推论部份又可细分为数据中心(Datacenter)、边缘(Edge)、行动(Mobile)及微型(Tiny,大多为MCU)。前不久(2023/6/27)才刚公布了Tiny v1.1测试结果报告,接下来就帮大家解读一下这份报告,让大家能更了解未来单芯片运行AI的方向及可行性。

评测场景及项目

目前ML Commons在Tiny部份先前已经过三轮(v0.5, v0.7, v1.0)测试,此次公布的是v1.1结果。测试时分为封闭(Closed)及开放(Open)型式,前者依官方规范测,而后者厂商可提出依自己规范测试更优的结果,不过不是每轮评测都会有开放型式。

目前主要评测项目如Fig.1 所示,共有四个项目,包含关键词侦测(Keyword Spoting, KS)、视觉唤醒字(Visual Wake Words, VW)、影像分类(Image Classification, IC)及异常侦测(Anomaly Detection, AD)。而每个项目都是采单串流数据(Single Stream)方式进行,即推论完一笔再取下一笔进行推论。依照不同项目,分别使用对应的数据集和模型,并在指定的推论质量下进行评量。

wKgZomTLYEaANXFwAAFCAFJOc0s385.jpg

Fig.1 MLPerf v1.1 工作场景及效能评量项目

参与评测公司、硬件及软件

本次参与评测的项目共有32项,以下依不同项目分别介绍。

参与评测公司:共有10家,Krai, Nuvoton(新唐科技), STMicroelectronics(简称STM), Skymizer(台湾发展软件科技), cTuning, fpgaconvnet, Plumerai, Syntiant, Robert Bosh GmbH, kai-jiang(个人)。

参与评测开发板:共有14种,规格下如下所示。

STM NUCLEO-H7A3ZI-Q, Arm Cortex-M7(DSP+FPU) @280MHz

STM NUCLEO-L4R5ZI, Arm Cortex-M4(DSP+FPU) @120MHz

STM NUCLEO-U575ZI-Q, Arm Cortex-M33(DSP+FPU) @160MHz

STM NUCLEO-G0B1RE, Arm Cortex-M0+ @64MHz

STM DISCO-F746NG, Arm Cortex-M7(DSP+FPU) @216MHz

Nordic nRF5340 DK, Arm Cortex-M33(DSP+FPU) @128MHz

Nuvoton NUMAKER-M467HJ, Arm Cortex-M4F @200MHz

DIGILENT Cora Z7, Arm Cortex-A9 @667MHz

DIGILENT ZC706, Arm Cortex-A9 @650MHz

DIGILENT ZedBoard, Arm Cortex-A9 @650MHz

DIGILENT ZyBo, Arm Cortex-A9 @650MHz

Infineon CY8CPROTO-062-4343W, Arm Cortex-M4 (DSP + FPU) @150MHz

Syntiant NDP9120, HiFi3+M0 @30.7MHz/98.7MHz

ZCU106, RISC-V @20MHz

主要CPU规格:共有7大类。只有1项使用RISC-V,1项为MCU+NPU,其余皆是Arm Based。Cortex-M为单芯片(MCU)等级,Cortex-A为微处理器(MPU)等级芯片,用于手机或单板微电脑

Arm Cortex-M0+ (1项)

Arm Cortex-M33 (4项)

Arm Cortex-M4/M4F (13项)

Arm Cortex-M7 (7项)

Arm Cortex-A9 (4项)

Syntiant HiFi3+M0 (2项)

RISC-V (1项)

主要软件及函式库:共有9种。

Skymizer ONNC

MicroTVM

Plumerai Inference Engine

Syntiant TDK+SDK

Bosch Hardware-Aware Lowering Engine(HALE)

STM X-CUBE-AI

fpgaConvNet(Model+Optimiser)

Arm CMSIS-5

TVM

评测结果:

由于芯片等级落差颇大,单从推论时间(毫秒ms)及能耗(微焦耳uJ 比较可能会有点不公平,所以这里依CPU等级及工作频率来分会更清楚些。Fig. 2分别列出各等级中推论速度表现最好的。

wKgaomTLYEaAHbHTAAP1WwqQPI8795.jpg

Fig.2 MLPerf Tiny v1.1各等级CPU及不同应用表现最佳清单。

另外从此次提交的项目亦可看出Arm Cortex-M4已成为TinyML的主流,若推论仍不够快时,则可再提升到Cortex-M7。而新上市的Cortex-M33效能已高过Cortex-M4,略低于Cortex-M7,让使用者有多一点性价比的选择空间。

小结

在边缘智能(Edge AI)装置及智能物联网(AIoT)应用中使用单芯片(MCU)来运行AI(TinyML)已是现在进行式,透过此次的评比结果,可让大家更了解各家芯片性能及模型优化工具的进展,未来随着MCU+NPU的普及,相信下一次的评比结果可能就有更大跃升,就让大家一起期待吧!



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM处理器
    +关注

    关注

    6

    文章

    361

    浏览量

    41976
  • MPU
    MPU
    +关注

    关注

    0

    文章

    376

    浏览量

    49008
  • Cortex-M4
    +关注

    关注

    6

    文章

    94

    浏览量

    46655
  • 加速处理器
    +关注

    关注

    0

    文章

    8

    浏览量

    6459
  • AI芯片
    +关注

    关注

    17

    文章

    1914

    浏览量

    35271

原文标题:TinyML (MCU AI) 运行效能谁说了算?

文章出处:【微信号:易心Microbit编程,微信公众号:易心Microbit编程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中心的力如何衡量?

    作为当下科技发展的重要基础设施,其力的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算力衡量的详细阐述:一、力的基本定义与单位1、
    的头像 发表于 01-16 14:03 615次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b>力如何衡量?

    推拉力机夹具效果检测,好不好说了算#测试仪器 #推拉力测试

    推拉力测试机
    力标精密设备
    发布于 :2024年11月11日 17:07:50

    浅析三大力之异同

    随着一年多前ChatGPT的出现引爆人工智能(AI)浪潮,支撑大模型背后的“力”概念突然闯进我们的视野,成为科技圈炙手可热的新词,引领着最新潮流。作为数字经济时代新生产力,也许不少人知道力有许多
    的头像 发表于 08-30 12:56 1317次阅读
    浅析三大<b class='flag-5'>算</b>力之异同

    虹科技术 全新Linux环境PCAN驱动程序发布!CAN/CAN FD通信体验全面升级!

    ”。想要体验字符模式设备驱动接口(chardev)的便捷,还是SocketCAN设备驱动接口(netdev)的高效?都由您说了算! 新版本驱动包概览 1、设备驱动程序模块源代码及Makefile文件,确保
    的头像 发表于 08-29 09:36 518次阅读
    虹科技术 全新Linux环境PCAN驱动程序发布!CAN/CAN FD通信体验全面升级!

    知道影响贴片电感发热的因素有哪些吗?

    知道影响贴片电感发热的因素有哪些吗?
    的头像 发表于 08-17 14:24 569次阅读
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>影响贴片电感发热的因素有哪些吗?

    知道贴片电感故障时可能出现的症状吗?

    知道贴片电感故障时可能出现的症状吗?
    的头像 发表于 08-17 14:20 477次阅读
    <b class='flag-5'>你</b><b class='flag-5'>知道</b>贴片电感故障时可能出现的症状吗?

    国产芯上运行TinyMaxi轻量级的神经网络推理库-米尔基于芯驰D9国产商显板

    是面向单片机的超轻量级的神经网络推理库,即 TinyML 推理库,可以让你在任意单片机上运行轻量级深度学习模型~ 开源地址:https://github.com/sipeed/TinyMaix搭建
    发表于 08-09 18:26

    知道共模电感用错了会有什么影响吗

    电子发烧友网站提供《知道共模电感用错了会有什么影响吗.docx》资料免费下载
    发表于 07-30 10:42 0次下载

    瑞萨电子推出Reality AI Explorer Tier,用于开发AI与TinyML解决方案

    全球半导体解决方案供应商瑞萨电子(TSE:6723)宣布推出Reality AI Explorer Tier——作为Reality AI Tools软件的免费版本,可用于开发工业、汽车和商业应用中的AI与TinyML解决方案。
    的头像 发表于 07-19 10:03 507次阅读

    浪潮信息携手天府云数据科技推出了42kW智风冷力仓

    不仅标志着我国智基础设施迈入了全新的高密度、高效能时代,更为人工智能、自动驾驶、生物制药、AIGC(人工智能生成内容)及智能制造等多个前沿领域提供了强有力的力支撑。
    的头像 发表于 07-15 16:18 727次阅读

    TinyML在机器人中的应用——创建语音控制机器人子系统

    通过对TinyML领域基础概念的坚实理解,我们将把我们的知识应用到现实生活中的项目中。nbsp; 在深入研究这个项目之前,我想说明一下,这个项目将使用现有的数据集,Google Colabs和由
    的头像 发表于 05-07 14:51 7793次阅读
    <b class='flag-5'>TinyML</b>在机器人中的应用——创建语音控制机器人子系统

    全新Linux环境PCAN驱动程序发布!CAN/CAN FD通信体验全面升级!

    ”。想要体验字符模式设备驱动接口(chardev)的便捷,还是SocketCAN设备驱动接口(netdev)的高效?都由您说了算
    的头像 发表于 04-19 10:38 1079次阅读

    知道激光钻孔技术有多牛吗?看完这篇文章就明白了

    知道激光钻孔技术有多牛吗?看完这篇文章就明白了
    的头像 发表于 02-29 17:09 1116次阅读

    电机运行功率怎么

    电机是现代工业中最常见、最重要的动力装置之一,广泛应用于各行各业。而作为电机运行特性的一个重要参数,功率的计算与分析对于电机的设计、运行和维护具有重要意义。本文将介绍电机运行功率的计算方法。 一
    的头像 发表于 02-20 14:22 4084次阅读