如何优化ML模型与硬件实现TinyML？Arm归纳出5种作法-电子发烧友网

近几年，因应AI与ML应用趋势浪潮，越来越多企业开始尝试将这样的能力带到靠近数据源的边缘设备或IoT装置，来发展各种Edge AI或AIoT应用。例如结合语音指令来控制机器人作业，或是透过AI边缘摄影机来侦测机台设备有无故障。但受限于CPU效能、数据吞吐量、内存及数据储存的影响，想要在资源有限的IoT或嵌入式装置跑AI或ML推论模型，现在仍然不是一件容易的事。

近年来，一种微型机器学习新技术TinyML顺势而起，试图从优化硬件或模型来实现装置上的AI或ML应用，让ML的推论功能能够在资源有限的终端装置上来实现，可说是加速实现Edge AI或AIoT应用的重要关键。

TinyML是什么？引用GoogleTensorflow 行动部门负责人Pete Warden的定义，指的是每次执行ML模型推论时，其功耗必须小于1毫瓦（1mW）。

除了考虑到功耗，运算力不足也是实现Edge AI或AIoT应用的关键问题。以Inception v4深度学习模型为例，硬件能力需要的运算量就有240个GOPS（每秒执行10亿次运算）但一般singleissue处理器，仅提供个位数的GOPS，甚至不只运算能力，连在内存中存取数据也会影响功耗，例如要从SRAM高速缓存来存取1TB的数据，一颗16奈米CPU每秒所消耗的功耗就超过1瓦。这些都是TinyML的挑战。

现阶段TinyML技术发展，主要是从ML模型与硬件优化来实现低功耗装置上的ML应用。归纳起来实现TinyML的5种常见ML模型架构和优化的方法，包括降低精度（Reduce Precision）、数据重复利用（Data re-use）、权重压缩（Weight compression）、转换（Transforms）、稀疏运算（Sparse computation）。

第一种作法是转换ML模型及权重的数据单元格式，来降低推论执行所需的运算量，例如将模型的权重从高精度FP32转成较低精度的FP16或INT8格式。因ML模型需要很多乘加法运算，而高精度ML模型又比低精度ML模型需要的运算量更高，也因此，改用较低精度的ML模型来执行运算，能大幅降低功耗，甚至因运算数据变少，也能因应更高的吞吐量需求。这是第一个可以运用到TinyML的方法。

除了从数据单元格式着手，减少数据重复使用是另一个可行方法。例如可以将CNN神经网络模型中经常重复使用的权重参数的数值，暂时集中存放到一处，不用每次都从内存来捞取数据，减少不必要任务处理，也能达到降低功耗的作用。

由于现在神经网络模型体积越来越大，结构越来越复杂，因推论执行需处理的模型参数数量也就越多，大量使用内存来存放这些庞大数据，也造成了不少功耗的损失，也因此有了第3种作法是，透过权重压缩技术，对于存入内存前的权重参数先进行压缩，需要时再解压缩拿来使用，，这样做好处是，一来可以减少内存的用量，二来能获得更高的带宽和更低功耗。

第4种作法则是采用转换矩阵运算domain的方式，来降低乘法运算的复杂度。一般AI或ML模型运算过程有6成以上都是矩阵的乘法运算，所以只要让乘法运算变少，就能减少运算量，这是能够降低运算和功耗的另一种方式。例如将复杂的矩阵运算domain转换到较简易Winograd卷积算法的domain做运算，就能降低乘法运算的复杂度。

最后一种方法是稀疏运算，像是运用Relu的激励函数，在CNN模型运算过程中，使其部分神经元的输出为零，可以让神经网络变得稀疏，在运算时只针对激励函数输入数值非零部分做运算，不处理数值为零的部分，透过这样的处理方式，同样能达到运算量与功耗降低的效果。

除了优化ML模型和架构外，现在硬件设计过程中，也有一些新作法，来因应TinyML需求。常见3种TinyML硬件平台，前两种是以低功耗和AI加速或优化的硬件设计为主，包括有低功耗通用SoC、低功耗micro-NPU，可分别对应到Arm Cortex-M55与Arm Ethos-U55系列IP产品。Arm Cortex-M55最大特色是支持最新的向量扩充指令，与Cortex-M44相比，在语音模型处理性能表现高出8倍之多。Arm Ethos-U55是ARM推出的另一款神经网络处理器IP产品，不仅省电，在AI处理效能获得百倍提升，甚至最新一款Arm Ethos-U6产品中，其运算能力可达到1 TOPS。

其中第3种硬件平台是采取内存运算的硬件架构平台，如Mythic IPU处理器等，就是采用闪存内运算来执行ML推论，足以支撑113M （百万）权重数量和每瓦4 TOPs运算能力。

目前TinyML技术上遇到的挑战，越来越多AI与ML应用，开始追求更高准确度，需要使用资源越来越多，包括运算、内存、功耗等，「但TinyML却又是要在有限资源下来实现或执行不同的模型或神经网络，这就是最大的Gap。」

举例来说，想要提高神经网络模型准确度，除了需要有大量的数据做训练，数据量越大需要做的矩阵运算就更多，还有大量的参数需要调整，而且随着架构越复杂，需要做很多层神经网络计算，使用海量存储器存取数据、参数和每一层计算结果。

尽管TinyML发展才刚起步，随着AIoT或Edge AI应用越来越火红，未来将会有越来越多嵌入式装置结合AI或ML功能，想要真正实现TinyML，这些装置硬件必须具备每秒兆次（trillions）的乘加法运算能力，而且这样的运算能力须考虑到硬件空间设计，还有兼顾功耗才行。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ARM

ARM

+关注

关注
134

文章
9088

浏览量
367405
ML

ML

+关注

关注
0

文章
149

浏览量
34644
机器学习

机器学习

+关注

关注
66

文章
8408

浏览量
132573
TinyML

TinyML

+关注

关注
0

文章
42

浏览量
1226

原文标题：如何优化ML模型与硬件实现TinyML？Arm归纳出5种作法

文章出处：【微信号：易心Microbit编程，微信公众号：易心Microbit编程】欢迎添加关注！文章转载请注明出处。

利用Arm Kleidi技术实现PyTorch优化

PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来，Arm 与合作伙伴通力协作，持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 技术提升 A

发表于 12-23 09:19 •75次阅读

AI模型部署边缘设备的奇妙之旅：目标检测模型

并非易事，它涉及到从选择合适的算法架构到针对特定硬件平台进行优化等一系列复杂的工作。接下来，我们将详细介绍如何在资源受限的边缘设备上成功部署目标检测模型，探索其背后的原理和技术，并讨论解决该领域内常见

发表于 12-19 14:33

如何优化自然语言处理模型的性能

优化自然语言处理（NLP）模型的性能是一个多方面的任务，涉及数据预处理、特征工程、模型选择、模型调参、模型集成与融合等多个环节。以下是一些具

发表于 12-05 15:30 •341次阅读

【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

为了尽可能地解决大模型在实际应用中面临的一些问题，特别是“幻觉”问题而诞生的，也是最重要的一种优化方案。其基本思想可以简单表述如下：将传统的生成式大模型与实时信息检索技术相结合，为大

发表于 12-04 10:50

如何通过OSI七层模型优化网络性能

OSI（Open Systems Interconnection）七层模型是一种标准的网络分层模型，将网络功能分为七个不同的层次，每个层次都有独立的功能和协议，可以独立地实现和升级。通

发表于 11-24 11:14 •259次阅读

深度学习模型的鲁棒性优化

深度学习模型的鲁棒性优化是一个复杂但至关重要的任务，它涉及多个方面的技术和策略。以下是一些关键的优化方法：一、数据预处理与增强数据清洗：去除数据中的噪声和异常值，这是提高模型鲁棒

发表于 11-11 10:25 •223次阅读

ML307A 4G模组硬件设计手册

基于ML307A 4G模组的硬件设计指导手册

发表于 10-24 16:50 •6次下载

AI大模型的性能优化方法

AI大模型的性能优化是一个复杂而关键的任务，涉及多个方面和策略。以下是一些主要的性能优化方法：一、模型压缩与优化

发表于 10-23 15:01 •645次阅读

如何利用ARMxy ARM嵌入式计算机的NPU进行深度学习模型的训练和优化？

在正文开始前，我们先大致了解钡铼的ARMxy ARM嵌入式计算机，再来说说我们如何利用ARMxy ARM嵌入式计算机的NPU来实现深度学习模型的训练和

发表于 08-20 13:43 •329次阅读

优化 FPGA HLS 设计

一种迭代优化，只要每次迭代都显示出改进，就会不断重复。如果达到时间目标或未能显示出改进，它最终将自动停止。经过两轮优化

发表于 08-16 19:56

如何训练一个有效的eIQ基本分类模型

在 MCX CPU和eIQ Neutron NPU上。 eIQPortal它是一个直观的图形用户界面(GUI)，简化了ML开发。开发人员可以创建、优化、调试和导出ML模型，以及导入数据

发表于 08-01 09:29 •1810次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习模型进行优化与调试是确保其性能优越的关键步骤。本文将从数据预处理、模型设计、超参

发表于 07-01 11:41 •806次阅读

是德科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

2024年2月29日，是德科技（Keysight Technologies,Inc.）宣布，针对人工智能（AI）和机器学习（ML）基础设施生态系统，推出了 AI数据中心测试平台，旨在加速AI / ML网络验证和优化的创新。

发表于 02-29 09:32 •629次阅读

使用ml configurator进行tflite网络模型的转换不成功怎么解决？

使用ml configurator进行tflite网络模型的转换不成功，提示错误，请帮忙协助谢谢 [ERROR] Failed to run QEMU

发表于 01-31 06:56

深入探讨工业AI/ML技术的发展趋势及相关解决方案

芯科科技已经创建了一套完整的硬件和软件解决方案，可支持开发用于工业市场的工业AI/ML解决方案。具体来说，我们的Sub-GHz、蓝牙和802.15.4产品内置了硬件加速功能，可优化边缘

发表于 01-29 09:42 •485次阅读

搜索历史

如何优化ML模型与硬件实现TinyML？Arm归纳出5种作法

评论

利用Arm Kleidi技术实现PyTorch优化

AI模型部署边缘设备的奇妙之旅：目标检测模型

如何优化自然语言处理模型的性能

【书籍评测活动NO.52】基于大模型的RAG应用开发与优化

如何通过OSI七层模型优化网络性能

深度学习模型的鲁棒性优化

ML307A 4G模组硬件设计手册

AI大模型的性能优化方法

如何利用ARMxy ARM嵌入式计算机的NPU进行深度学习模型的训练和优化？

优化 FPGA HLS 设计

如何训练一个有效的eIQ基本分类模型

深度学习的模型优化与调试方法

是德科技推出AI数据中心测试平台旨在加速AI/ML网络验证和优化的创新

使用ml configurator进行tflite网络模型的转换不成功怎么解决？

深入探讨工业AI/ML技术的发展趋势及相关解决方案