CEVA的NeuPro-M AI处理器有助于提高能效-电子发烧友网

AI 技术愈来愈受欢迎，在汽车、视觉处理和电信等领域的应用也越来越多。目前，AI 正在通过实现众多新功能来取代许多传统算法，例如为智能手机摄像头提供去噪和图像稳定功能。

在众多实施 AI 的产品都将数据发送到云数据中心的同时，也凸显出一些主要缺点：延迟增加、隐私风险以及需要互联网连接。

设计人员希望创建一些 AI 系统，使其在通常采用电池供电的边缘设备上运行，但这也带来了新的挑战，既实现需求的性能和功能与功耗之间的平衡，尤其是在持续快速且越来越多的需要更多计算能力的情况下。

AI 处理挑战

虽然众多不同边缘设备的要求都各不相同，但它们基本上都是为了最大程度地提高性能，降低功耗，并尽量减少所需的物理空间。设计工程师如何作出合适的权衡才能应对这些挑战？

现有 AI 处理器的性能往往受到带宽限制，并且在将数据移入和移出外部内存时也会遇到瓶颈，导致系统利用率低，这也就意味着性能/功率数值（以 TOPS/Watt 为单位）受到限制。

另一个重要问题是如何提前计划满足未来需求。由于 AI 处理器芯片的部署周期通常较长，因此 AI 解决方案必须能够适应未来的新要求，包括支持尚未定义的新神经网络。这意味着所有解决方案都必须足够灵活、可扩展，才能随着性能需求的增加而提升。

AI 系统还必须安全，并且必须符合最高的质量和安全标准，尤其是对于汽车应用和其他人工智能系统可能涉及生命攸关的决策的应用。例如，如果一位行人走到自动驾驶汽车前面，留给司机的反应时间是非常短的。

为了帮助克服这些挑战，就需要一个全面的软件工具链，简化客户实施，减少开发时间。

AI 处理器逐步提升

让我们以视觉机器学习为例，看看 AI 解决方案提供商如何应对这些挑战。

图 1：NeuPro-M AI 处理器框图，显示内存架构

首先，如果我们考虑带宽限制性能和内存访问权限问题，可以通过动态配置的两级内存体系架构来加以解决（参见图 1）。这样可以最大限度地降低与外部 SD RAM 进行数据传输产生的功耗。通过以分层方式使用本地内存资源，实现 90% 以上的利用率，防止协处理器和加速器出现“数据匮乏”情形，同时还可使每个引擎独立处理。

优化 AI 处理的另一种方法是通过使处理器架构支持混合精度的神经引擎。这种方法可以处理 2 到 16 位的数据，减少系统带宽消耗，除此之外，还能按每个用例灵活运行混合精度网络。此外，当数据从外部内存写入或读取时，数据压缩之类的带宽减少机制还能实时压缩数据和权重。这种方法减少了所需的内存带宽，进一步提高了性能，显著降低了总功耗。

图2：四引擎内核细分

这是 CEVA 的 NeuPro-M AI 处理器采用的方法，是一种用于 AI/ML 推理工作负载的独立异构处理器架构。以此解决方案为例，图 2 显示了如何在四 AI 引擎之间分割机器视觉应用，在本案例中是对前方道路进行车道检测。图像数据从外部内存或外部接口加载，然后分成四个拼图，每个拼图由不同的引擎处理。换句话说，每个引擎可以各自承担一个子图或不同的任务，例如物体检测和车道识别，以便优化特定应用的性能。

每个引擎都有自己的片上 L1 内存，以便最大程度地减少瓶颈或延迟。这也意味着，一旦配置好，AI 处理器就几乎可以完全独立地运行了，并且在大多数情况下，可以运行“从头到尾”的“融合”操作流水线，完全无需访问内部内存且几乎很少访问外部内存。如此一来，AI 处理器将变得更加灵活，并有助于提高能效。

我们在本文开始时讨论的要求还包括提供面向未来的灵活解决方案。完全可编程的矢量处理单元（VPU）可以在同一引擎 L1 数据上与协处理器并行工作，确保新的神经网络拓扑以软件方式提供支持

机器视觉优化

有许多优化可以提升特定 AI 应用的性能。在视觉处理过程中，Winograd 转换就属于这种优化之一。这是执行卷积（例如傅里叶变换）的另一种高效方法，只需使用以前所需的 MAC（乘累加运算）数量的一半。

对于 3x3 卷积层而言，Winograd 转换可以将性能提高一倍，同时保持与原始卷积方法相同的精度。

另一个基本的优化是使用稀疏化，即能够忽略数据或权重中的零。通过避免乘以零，性能得到了改善，同时保持了准确性。虽然某些处理器需要结构化数据才能享受稀疏化带来的好处，但使用完全支持非结构化稀疏化的处理器可以获得更好的结果。

通常，AI 系统需要将某些优化功能或网络固有操作（如 Winograd 转换、稀疏机制、自关注操作和缩放）交给专门的引擎。这意味着需要先卸载数据，然后在处理后再重新加载数据，这样一来就会增加延迟并降低性能。对比之下，更好的选择就是将加速器直接连接到引擎本地共享 L1 内存，或者在大多数情况下，进行融合操作，即从一个协处理器到另一个协处理器的即时端到端处理，而不需要在执行过程中访问任何内存。

这些优化有多重要？图 3 显示，与 CEVA 的上一代 AI 处理器相比，单引擎 NPM11 内核在典型的 ResNet50 实施中实现了性能提升。您可以看到，基本的、原生的操作实现了近五倍的性能提升。

添加 Winograd 转换，然后添加稀疏引擎可以进一步提高性能，最高可达上一代处理器的 9.3 倍。最后，对一些网络层使用混合精度（8x8 和低分辨率 4x4）权重和激活，在可以忽略不计的精度损失的情况下，进一步提高了性能--实现了比上一代处理器近15倍的性能提升，比原生处理快 2.9 倍。

图 3：NPM11（单引擎内核）性能改进

结论

我们已经看到了新内存架构和本地“负载平衡”控制实现（流水线处理对比连续处理相同数据），最大限度地减少外部访问的情形，并充分利用了硬件，可以在不需要更多功耗的情况下提高性能，以及 Winograd 转换和稀疏性等优化进一步提升性能的方法。

总而言之，现代 AI 处理器可以提供完全可编程的硬件/软件开发环境，具有要求苛刻的边缘 AI 应用所需的性能、能效和灵活性，这使设计工程师能够从其系统内的有效AI实现中受益，而不会增加超出其便携式边缘设备预算的功耗。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

dsp

dsp

+关注

关注
553

文章
8011

浏览量
349134
蓝牙

蓝牙

+关注

关注
114

文章
5830

浏览量
170482
带宽

带宽

+关注

关注
3

文章
937

浏览量
40945
CEVA

CEVA

+关注

关注
1

文章
178

浏览量
75957
AI处理器

AI处理器

+关注

关注
0

文章
92

浏览量
9491

原文标题：CEVA的NeuPro-M AI 处理器如何迎接边缘 AI 挑战

文章出处：【微信号：CEVA-IP，微信公众号：CEVA】欢迎添加关注！文章转载请注明出处。

Ceva-NeuPro-Nano NPU荣获EE Awards Asia年度最佳IP/处理器产品奖

近日，全球领先的半导体产品和软件IP授权许可厂商Ceva公司宣布，其Ceva-NeuPro-Nano NPU在近期于中国台北举办的亚洲金选奖(EE Awards Asia)中荣获年度最佳IP/处理器

发表于 12-25 15:36 •171次阅读

XD08M3232红外感应单片机拥有哪些配置实现高性能处理能力

。内置两路轨到轨运算放大器：能够对低幅度的输入信号进行有效放大。在不同场景下，通过放大传感器信号，可以提高信号处理的效率和准确性。这有助于在数据

发表于 11-23 15:08

XD08M3232红外感应单片机拥有哪些配置实现高性能处理能力

来的额外处理负担，使得单片机可以更高效地对数据进行处理，从而有助于实现高性能的处理能力。内置两路轨到轨运算放大器：能够对低幅度的输入信号进行有效放大。在不同场景下，通过放大传感

发表于 11-07 14:04

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本原理和原则，方法进行描诉，有利于总结经验，拟按照要求准备相关体会材料。看能否

发表于 09-09 15:36

关于一些有助于优化电源设计的新型材料

众所周知，人们对更高电源效率的追求正在推动性能的全方位提升。材料科学的进步对于优化电源设计和开发更高效、更紧凑和更可靠的解决方案发挥着关键作用。下文列出了一些有助于优化电源设计的新材料。

发表于 08-29 15:26 •428次阅读

MSPM0-高级控制计时器有助于实现更好的控制和更好的数字输出

电子发烧友网站提供《MSPM0-高级控制计时器有助于实现更好的控制和更好的数字输出.pdf》资料免费下载

发表于 08-28 11:30 •0次下载

有助于提高网络设备性能的FRAM SF25C20（MB85RS2MT）

有助于提高网络设备性能的FRAM SF25C20（MB85RS2MT）

发表于 07-25 09:49 •293次阅读

基于瑞萨RZ/V2H AI微处理器的解决方案：高性能视觉AI系统

RZ/V2H嵌入式AI微处理器，采用瑞萨最新的DRP-AI3技术，可提供高达8TOPS（Dense模型）/80TOPS（sparse模型）的AI推理能力，以及10 TOPS/W的

发表于 07-02 18:36 •527次阅读

爱普生的高精度传感技术有助于监控自动化

Epson、JREast和NaganoKeiki联合开发了一种适用于铁路运营商的实用挠度监测设备-爱普生的高精度传感技术有助于监控自动化-SeikoEpsonCorporation（TSE:6724

发表于 06-27 10:53 •358次阅读

如何借助IPM智能功率模块提高白色家电的能效

大多数家用电器都使用电机来操作其功能，如在洗衣机中转动滚筒，或者在冰箱中压缩制冷剂。通过变频技术来调节电机是一种有效的高能效解决方案。变频技术需要使用适当的半导体解决方案。一种行之有效的方法是使用智能功率模块（IPM）。将功率半导体和驱动电路集成到一个模块中，

发表于 06-27 08:14 •576次阅读

意法半导体发布高能效智能惯性测量单元

意法半导体6轴惯性测量单元（IMU）ISM330BX集成边缘AI处理器、传感器扩展模拟集线器和Qvar电荷变化检测器，并提供产品寿命保证，适用于设计

发表于 06-20 09:47 •457次阅读

构建强大、高能效的i.MX 8ULP应用处理器合作生态体系

工程师们正在借助i.MX 8ULP应用处理器应对这一挑战，在更紧凑的体积中实现更强大的功能，同时为下一代边缘设备提供了惊艳的能效水平。恩智浦最新的超低功耗微处理器现在可供嵌入式设计工

发表于 04-24 16:35 •1851次阅读

AMD EPYC 8004系列处理器优势介绍

AMD EPYC 8004系列处理器就是专为单路平台设计的高能效处理器，它体积小巧，非常适合空间和功率有限的部署环境。

发表于 04-15 11:30 •381次阅读

在微芯片上使用3D反射器堆栈有助于加快6G通信的发展

一项新的研究发现，在微芯片上使用3D反射器堆栈可以使无线链路的数据速率提高三倍，从而有助于加快6G通信的发展。

发表于 03-13 16:31 •704次阅读

如何提高处理器的性能

提高处理器主频可以提高处理器的性能，但是到一定程度就不能再提高了，我们需要通过双核，或者多核来提高处理器的性能。

发表于 01-24 09:59 •2509次阅读