0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI应用的绝佳组合:NPU+DSP!

AI智胜未来 来源:半导体行业观察 2023-05-19 15:27 次阅读

如今,人工智能应用正在渗透入大众生活的方方面面,自动驾驶技术的行人检测数码相机的图像质量增强、AI美颜、语音识别……这些人工智能应用的背后离不开硬件的支持。虽然神经网络处理器(NPU)在性能、效率和算法灵活性方面已优于可编程DSP,但这并不意味着 AI 处理中不需要 DSP。恰恰相反,对于许多应用的AI子系统来说,神经网络处理器(NPU)与矢量DSP是绝佳组合。

哪些应用需要用到DSP?NPU和DSP该如何更好的配置?行业内是否有现成的解决方案可供选择?本文将针对这些问题一一进行讲解。

DSP在AI应用中发挥重要作用


从众多神经网络处理需求来看,例如卷积神经网络 (CNN) 或转换器,任何可以执行乘法运算并移动大量数据的处理器最终都可以执行这些计算密集型模型。借助先进的量化技术,经过训练的神经网络的32位浮点输出可以在 8 位整数控制器或处理器上运行,而且精度几乎没有降低。这意味着可以在 CPUGPU、DSP 甚至MCU上处理CNN推理,准确度不受影响。

目前在行业内通常用TOPS(每秒万亿次运算)来衡量AI处理器的性能,也称之为“算力”。TOPS 的计算方式为:一个周期内可以完成的运算次数(一次乘积累加视为两次运算)x最大频率。这是很好的首次性能估算,因为大部分计算由对矩阵乘法的需求驱动,而矩阵乘法需要乘积累加运算。

按照这种计算方法,让我们来看下不同处理器类型的理想TOPS。具有DSP扩展的CPU可以每个时钟周期执行一次乘积累加 (MAC) 并以 2GHz的速度运行,其运算能力为:2GHz x 2次运算(包括乘积和累加)x 1 MAC/周期 = 4 GOPS 或 0.004 TOPS(1TOPS等于1000 GOPS)。以此类推,矢量DSP的理想TOPS为1.2,高端的NPU将达到255.6 TOPS。如表1中所示,从理想的算力能力上来看,神经处理单元 (NPU) 是获得最高计算能力的最佳选择。

8b657752-f614-11ed-90ce-dac502259ad0.png

表1 :各种处理器的大致性能范围

诚然,计算能力固然重要,但一些应用对实时性能的要求也很高。如在汽车应用中,当一辆汽车以 70 英里/小时的速度冲向行人,需要迅速决定是否要刹车。多摄像头配置、高分辨率、最低延迟,这些因素都对计算效率提出了更高要求,以帮助汽车做出生死攸关的决定。因此,我们需要更谨慎地选择用于处理AI推理的处理器。

GPU在AI计算中也可以提供高性能,但由于其功耗和面积成本很高,对于实时应用来说难以接受,所以并未在上表中列出。事实上,上表中所列的每种处理器都需要不同级别的功率和面积才能达到所需的运算能力。对于实时应用来说,功耗和面积(与成本和可制造性直接相关)几乎与性能同样重要。理论上来说,NPU经过设计和优化,是执行神经网络算法时性能、功耗和面积效率最高的处理器。

但是,并非每个AI应用都需要NPU提供的最高级别的神经网络性能。如下图1所示,不同的AI应用涵盖从几GOPS到数千TOPS的各种性能要求。当你的AI应用所需算力小于1 TOPS时,具有DSP扩展的CPU或者矢量DSP是比较理想的选择;而当算力要求高于1 TOPS时,NPU的 AI 性能效率、功耗效率和面积效率毋庸置疑。

8b761b66-f614-11ed-90ce-dac502259ad0.png

图 1:AI 应用有各种各样的性能要求。

NPU 的最佳效率来自每个周期可以完成的大量乘积,以及一些专用于其他神经网络运算(例如激活函数)的硬件。NPU 面临的挑战是如何实现最大硬件加速,从而最大限度地提高神经网络效率,还要保持一定程度的可编程性。虽然现在全硬件神经网络ASIC比可编程 NPU更高效,但AI技术发展迅速,AI SoC的生产周期很长,因此保持一定程度的可编程性至关重要。

而且,NPU是专用的神经处理器引擎,只能执行AI计算。如果将矢量DSP和NPU结合使用,利用矢量DSP对NPU进行支持,就可以提供最高性能和额外的可编程性。例如,在自动驾驶汽车中,需要利用NPU来寻找行人、识别街道标志、使用神经网络进行雷达处理,在这些多应用处理中,系统可利用矢量DSP来为NPU进行额外筛选、雷达或LiDAR处理以及预处理和后处理。


NPU+DSP的三种配置方式


图2显示了在 AI 应用中将NPU和矢量DSP结合使用的各种可能性。在图中所示的三种情况下,高分辨率图像帧位于DDR内存中,等待在下一帧到达之前得到处理。

8ba2ef4c-f614-11ed-90ce-dac502259ad0.png

图 2:矢量DSP和神经网络性能的不同组合。

在第一种配置中(左侧),矢量 DSP本身既可用于DSP处理也可用于一部分AI处理,这属于运算能力低于 1 TOPS 的用例,这种配置需要大型DSP+小型AI。这种配置的具体示例是为永磁同步电机 (PMSM) 执行无传感器磁场定向控制 (FOC) 的矢量 DSP。基于 DSP 的电机控制通过 AI 处理实现扩展,AI 处理的作用是执行位置监控,并将相关信息反馈到控制回路。AI 模型的采样率和计算复杂性使其能够与矢量DSP的AI功能相适应。

在第二种配置中(中间),AI SoC 需要很高的矢量DSP性能和AI 性能,这种配置是大型 AI+大型 DSP。当矢量DSP处理高度依赖DSP的任务时,需要用NPU为AI密集型任务提供的神经网络加速作为补充。数码相机就是这种配置,矢量 DSP 可以对 NPU 执行视觉处理以及预处理和后处理支持,而 NPU 则专用于对高分辨率图像进行 CNN 或转换器处理(对象检测、语义分割、超分辨率等)。这些用例需要紧密集成的矢量 DSP 和 NPU 解决方案,而且可进行扩展以适应性能目标。

第三个配置是小型 DSP+大型 AI。所有的处理都集中在神经网络上,虽然这些神经网络通常可以在 NPU 中执行,但有一些更复杂的神经网络模型需要矢量 DSP 的支持来执行浮点运算,如Mask-RCNN 的 ROI 池化和 ROI 对齐,或 Deeplab v3 使用的非整数比例因子。即使 AI SoC 不需要任何额外的 DSP 处理,纳入一定程度的矢量 DSP 性能来支持 NPU 还是有好处的,这可以更好地适应未来的发展需求。


新思科技ARC EV7x能够实现

矢量DSP和NPU紧密耦合


虽然市场上有多种矢量DSP和NPU供选择,但对于第二种和第三种配置,最好选择包含紧密集成处理器的 AI 解决方案。一些神经网络加速器将矢量DSP嵌入到神经网络解决方案中,这样限制了矢量DSP用于外部编程。

而新思科技的ARC EV7x 视觉处理器是异构处理器,它将矢量DSP与可选的神经网络引擎紧密耦合。为了提高客户的灵活性和可编程性,ARC EV7x系列正在发展成为 ARC VPX 矢量 DSP 系列和 ARC NPX NPU 系列。VPX 和 NPX 是紧密耦合的 AI 解决方案。图 3 显示了这两种处理器的粗略框图及其互连方式。

8bce147e-f614-11ed-90ce-dac502259ad0.png

图 3:新思科技 ARC VPX5 和 ARC NPX6 的紧密耦合型组合

ARC VPX DSP IP在基于超长指令字 (VLIW)/单指令多数据 (SIMD) 架构的并行 DSP 处理方面表现出色,并针对嵌入式工作负载的功耗、性能和面积 (PPA) 要求进行了优化。可将 VPX 系列配置为支持浮点和多种整数格式(包括用于 AI 推理的 INT8 运算)。VPX 系列在 128 位(VPX2、VPX2FS)、256 位(VPX3、VPX3FS)和 512 位(VPX5、VPX5FS)矢量字上运行,因此可提供多种性能,还可以从单核扩展到四核。这样可以每个周期提供 16 个 INT8 MAC 至 512 个 INT8 MAC(在四核 VPX5 上使用双 MAC 配置)。

ARC NPX NPU IP专用于 NN 处理,还针对实时应用的 PPA 要求进行了优化。该系列从每个周期 4096 个 MAC 的版本扩展到每个周期 96000 个 MAC 的版本,然后可以扩展到多个实例。NXP6 系列在单个 SoC 上的 AI 性能可从 1 TOPS 扩展到 1000 TOPS。它还针对 CNN 的最新神经网络模型和新兴的转换器模型类别进行了优化。

如图 3 所示,VPX 和 NPX 系列紧密集成。ARCsync 是额外的 RTL,可在处理器之间提供中断控制。数据通过外部 NOC 或 AXI 总线传递,这类总线通常已在 SoC 系统中存在。虽然两个处理器可以完全独立运行,但 VPX5 能够根据需要访问 NPX6 的 L2 内存。

通用软件开发工具链 ARC MetaWare MX 也支持 VPX5 和 NPX6 的紧密集成,该工具链支持 NXP 和 VPX 的任意组合。SoC 架构师可以使用这些可扩展处理器系列选择 DSP 性能和 AI 性能的正确组合,以最大限度地提高性能并减少面积开销。对于高度依赖 AI 的工作负载,“大型 AI,小型 DSP”配置的经验法则是,每 8000 或 16000 个 MAC 为 NPX 配备一个 VPX5(具体取决于模型和工作负载)。对于 NPX6-64K 配置,建议至少使用四个 VPX5 内核。


结语


诚然,对于特定任务(例如行人对象检测),神经网络处理已经取代了 DSP 处理,但矢量 DSP 的 SIMD 功能与 DSP 支持功能和 AI 支持功能相结合,可使其成为 AI 系统的重要组成部分。随着嵌入式应用对 AI 处理的需求持续增长,要实现灵活设计,建议的最佳做法是结合使用 NPU 和矢量 DSP,前者用于AI处理,后者用于提供对NPU支持和DSP处理,这样有助于为快速发展的AI提供具有前瞻性的AI SoC。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4717

    浏览量

    100002
  • AI
    AI
    +关注

    关注

    87

    文章

    28876

    浏览量

    266218
  • 自动驾驶
    +关注

    关注

    781

    文章

    13449

    浏览量

    165258

原文标题:AI应用的绝佳组合:NPU+DSP!

文章出处:【微信号:AI智胜未来,微信公众号:AI智胜未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    40+TOPS NPUAI PC处理器开卷算力

    的人工智能任务。同时,微软还提出,这款全新电脑搭配拥有全新神经处理单元NPU的芯片,可实现每秒超过40万亿次即40+TOPS的运算。那么也就是说,若要符合微软给出的AI PC的定义,NPU的算力至少要达到40 TOPS。   这
    的头像 发表于 07-14 01:11 3740次阅读
    40+TOPS <b class='flag-5'>NPU</b>,<b class='flag-5'>AI</b> PC处理器开卷算力

    深蕾半导体ASTRA AI详细介绍

    ASTRA AI芯片是一种集成了多种计算单元(包括NPU/uNPU、GPU、CPU、DSP等)的异构计算系统级芯片(SOC),专为处理复杂的人工智能(AI)任务而设计。这种设计使得AS
    的头像 发表于 09-12 16:49 144次阅读
    深蕾半导体ASTRA <b class='flag-5'>AI</b>详细介绍

    刷新AI PC NPU算力,AMD锐龙AI 9 HX 375领衔55 TOPS

    电子发烧友网报道(文/黄晶晶)最近AMD官网上线了锐龙AI 300系列中的最新成员锐龙AI 9 HX 375处理器。原本Ryzen AI 9 HX 370的NPU达到了50 TOPS,
    的头像 发表于 08-07 00:28 2867次阅读
    刷新<b class='flag-5'>AI</b> PC <b class='flag-5'>NPU</b>算力,AMD锐龙<b class='flag-5'>AI</b> 9 HX 375领衔55 TOPS

    NPUAI TOPS是什么?它们有哪些性能?

    可运行AI模型的性能、准确性和效率。如今,TOPS(每秒万亿次运算)是衡量处理器AI性能的主要方式之一。TOPS是基于处理器所需的架构和频率,衡量处理器潜在AI推理峰值性能的方法,比如神经网络处理器(
    的头像 发表于 06-13 10:33 559次阅读

    AI PC引发的NPU大战?英特尔:仅30%开发者选择NPU

    随着COMPUTEX 2024的日益临近,关于人工智能(AI)个人计算机(PC)的话题开始变得愈发热门和受关注。据微软公司近期发布的相关技术规范要求,所有运行Windows操作系统的AI PC必须配备本地运行Copilot的功能机制,并安装容量至少为40 TOPS的神经网
    的头像 发表于 06-03 17:24 740次阅读

    实测NPU“空转”,AI PC首个落地应用只调用GPU?

    AI PC的一大特征是在传统PC的CPU+GPU基础上,增加NPU加强AI 算力。不过有意思的是,最近某品牌PC机型上的AI助手率先落地,支持云端和本地运算两种模式,确实能够完成宣传上
    的头像 发表于 05-22 00:16 2920次阅读

    NPU是什么?为何它是开启终端侧生成式AI的关键?

    ),同时要利用异构处理器组合,比如中央处理器(CPU)和图形处理器(GPU)。通过结合NPU使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增强的生成式AI体验。   正如在工具箱中选择合适的工具一样,选
    的头像 发表于 03-07 11:25 1888次阅读
    <b class='flag-5'>NPU</b>是什么?为何它是开启终端侧生成式<b class='flag-5'>AI</b>的关键?

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 575次阅读

    采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗

    芯原股份发布重要消息,其集成了芯原神经网络处理器(NPU)IP的人工智能(AI)类芯片,已在全球范围内出货超过1亿颗。这一里程碑式的成就标志着芯原在AI领域的持续领先和创新。
    的头像 发表于 03-06 10:54 682次阅读

    采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗

    芯原股份(芯原,股票代码:688521.SH)今日宣布集成了芯原神经网络处理器(NPU)IP的人工智能(AI)类芯片已在全球范围内出货超过1亿颗,主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安
    的头像 发表于 02-29 10:26 333次阅读

    微软画图即将支持NPU,Windows内置应用AI功能持续优化

    神经网络处理单元(NPU),作为一款Win11笔记本上的专属硬件组件,主要承担AI及机器学习任务处置。相较于云服务或通CPU,NPU能有效提升本地设备的AI任务处理能力。
    的头像 发表于 02-26 13:51 517次阅读

    简单三步在Windows上调用低功耗NPU部署AI模型

    相信很多小伙伴都已经知道,在最新一代的英特尔 酷睿 Ultra 移动端处理中已经集成了被称为 NPU 的神经网络加速处理器,以提供低功耗的 AI 算力,特别适合于 PC 端需要长时间稳定运行的 AI 辅助功能
    的头像 发表于 02-22 17:17 2560次阅读
    简单三步在Windows上调用低功耗<b class='flag-5'>NPU</b>部署<b class='flag-5'>AI</b>模型

    npu,vop2

    大家好,我在npu使用上遇到了一些问题,请教一下大家,问题如下: 我把内核配置里的vop2驱动裁剪了以后,深度学习模型就不能在npu上运行了。可是我如果不裁剪掉vop2,我的核心板就卡死在
    发表于 11-09 13:51

    基于DSP/BIOS多线程的小型组合导航系统设计

    电子发烧友网站提供《基于DSP/BIOS多线程的小型组合导航系统设计.pdf》资料免费下载
    发表于 11-08 10:07 0次下载
    基于<b class='flag-5'>DSP</b>/BIOS多线程的小型<b class='flag-5'>组合</b>导航系统设计

    高通在2023骁龙峰会上推动突破性的生成式AI落地多品类终端

    要点 — •  全新骁龙平台展现了面向众多生成式AI终端和应用的绝佳终端侧AI性能,更加注重即时性、可靠性、个性化和隐私。 •  骁龙X Elite专为生成式AI而全新打造,具备行业领
    的头像 发表于 10-25 10:30 274次阅读
    高通在2023骁龙峰会上推动突破性的生成式<b class='flag-5'>AI</b>落地多品类终端