端侧AI应用趋热:NPU如何解决其关键痛点-电子发烧友网

当前，AI大模型正逐步从云端迁移至边缘，甚至深入至日常生活中的手机、个人电脑（PC）、汽车等终端。在这场变革中，端侧智能正逐渐崭露头角，预示着未来的智能设备将能够更实时、高效地理解和服务用户。在E维智库举办的第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上，安谋科技的产品总监鲍敏祺深入剖析了端侧AI应用的广阔前景，并强调了神经处理单元（NPU）在这一领域中的关键作用。

关于端侧大模型，鲍敏祺指出，AIGC大模型带来的算力提升为端侧AI带来了新的发展机遇。这些大模型已经在手机上实现了应用，如图片理解、关键信息提取等，显著提升了用户体验。例如，Apple Intelligence等大模型虽然尚未对国内用户开放，但已经引起了广泛的关注和测评。这些应用不仅提高了使用效率，还逐渐融入了人们的日常生活。

然而，鲍敏祺也提到，端侧AI的算力是否会像云端一样持续膨胀仍是一个未知数。由于存储带宽的限制以及用户体验对实时性的高要求，大模型必须在用户能接受的时间内（通常是2秒以内）给出反馈。因此，在当前带宽条件下，部署大模型需要权衡带宽制约与用户体验。

目前，众多国内外厂商已从商业化角度推出了大模型，并达成共识，认为AI NPU是未来消费类产品的重点投入方向。头部终端厂商如OPPO、VIVO、小米、荣耀、华为等也都有相应的解决方案。这些方案并非仅依赖端侧大模型，而是与云端相辅相成，共同提升用户体验。端侧的优势在于时效性和数据本地安全性，而云端则具备更强的理解和计算能力。

在评估端侧大模型时，语言类模型或文生图常被用作参考。但鲍敏祺认为，语言类模型并非端侧应用的终点。随着技术的发展，图片、音频、视频等多模态输入将成为常态。这些输入需要经过压缩和Tokenizer处理，转换成模型能理解的Token。而大型语言模型（LLM）的基本原理并未改变，只是输入和输出过程增加了编码和解码步骤。

另一个挑战在于，上下文长度的增长对模型性能提出了更高要求。衡量语言模型的指标包括每秒处理的Token数和首次响应时间（TTFT）。随着上下文长度的增加，首次延迟也会线性增长。因此，在端侧容量和带宽有限的情况下，需要优化算法以提升算力效率。

一个明显的趋势是，AI的应用将越来越广泛，涉及多模态场景。随着AI的发展，人们可能会更多地与智能体进行交互。这些智能体不仅能理解和执行任务，还能通过强化学习不断优化自己的行为。

在多模态场景下，AI的应用将不再局限于传统设备。从手持设备到边缘计算、PC、汽车，再到云端，AI将无处不在。然而，不同场景对AI算力的需求各不相同。手持设备由于功耗和芯片面积的限制，通常只能支持较小规模的模型。而在边缘计算、PC、汽车等端，模型体量可能更大。在云端，由于有充足的资源和带宽，模型体量可以更大，从而接受各种知识并进行持续迭代。

AI的赋能不仅限于传统设备，它还能为以前看似市场前景有限的终端设备带来新的生命力。例如，通过赋予可穿戴设备简单的语音控制和视觉拍照功能，这些设备可能会变得非常受欢迎。这种多模态的输入和直接使用的功能使得这些设备在竞争激烈的市场中脱颖而出。

然而，端侧AI也面临着诸多挑战。首先是成本、功耗和生态系统的问题。存储介质的带宽和成本是制约端侧AI发展的关键因素之一。尽管存储技术不断进步，但端侧设备仍然无法像云端那样拥有TB级别的带宽。此外，端侧设备的芯片面积和计算资源也非常有限。

第二个挑战是功耗问题。在AI应用中，数据的搬运是功耗的主要来源之一。对于大模型来说，由于显存占用大，无法像卷积神经网络（CNN）那样通过高复用度来提高能效。因此，如何降低数据搬运的功耗成为了一个亟待解决的问题。

此外，软件和工具的优化也是一大挑战。AI模型需要不断迭代优化才能满足用户需求。然而，当前的软件和工具在支持大模型优化方面还存在不足。

针对这些挑战，安谋科技推出的“周易”NPU采取了一系列应对策略。首先，它在保留CNN能力的同时，增强了对Transformer大模型的支持。通过优化微架构和计算能力，提升了Transformer的运算效率。其次，“周易”NPU注重数据本地化，通过混合精度量化和无损压缩来减少数据搬运和提升有效带宽。此外，它还针对大模型进行了总线带宽的扩展以满足解码等场景对带宽的高需求。

为了进一步提升能效，“周易”NPU还采用了数据并行、模型并行、负载均衡和Tiling等技术。同时，它也支持异构策略，可以独立执行AI任务，并根据需求自由裁剪。在端侧应用中，“周易”NPU还采用了电源门控和低功耗策略以降低不必要的功耗。

通过这些创新技术，“周易”NPU有效应对了端侧AI面临的挑战，为多模态场景下的AI应用提供了强有力的支持。针对不同应用场景，如智能汽车、手机PC、AIOT等，安谋科技也制定了差异化的策略。

在智能汽车领域，安谋科技关注智舱一体等趋势，提供了全面的IP解决方案。这包括用于渲染显示的GPU、用于处理摄像头数据的前级处理器以及用于安全相关功能的安全处理器（SPU）。特别值得一提的是，“周易”NPU具备20到320TOPS的可扩展性，以满足不同场景下的算力需求。例如，在汽车信息娱乐系统（IVI）场景中，算力要求相对较低；而在高级驾驶辅助系统（ADAS）场景中，由于需要执行多任务特别是CNN场景下的任务，算力需求则显著提升。“周易”NPU的灵活性使其能够适应各种汽车场景并实现完整端到端的解决方案。

对于AI加速卡场景，安谋科技关注输入与输出的高效处理特别是图像和视频数据的输入与AI计算的输出。加速卡具备HOST AP交互能力并强调安全性如JPEG解码能力和根据实际需求定制的NPU。根据应用场景的不同如NVMe存储形式、车载或手机等TDP功耗和算力需求也会有所差异。能效比是一个重要考虑因素例如在5瓦TDP功耗下有效算力可达25TOPS左右。整个解决方案多样不仅针对语言模型还着眼于未来多模态模型的需求。

在AIOT场景中算力需求相对较低但受到AIOT设备面积和功耗的限制。然而对安全性的要求却更高包括固件和安全性的强化。与服务器或板卡等密封形式不同AIOT场景对安全性的需求进一步提升。安谋科技的“周易”NPU能够在此类场景中提供20TOPS到320TOPS的算力裁减主要用于声音和图象的检测。考虑到端侧可能放置较低精度的模型以保证量化效果整个解决方案在保障安全的同时也通过一定算力的内容对语音类场景进行AI加速。

随着技术的不断进步和创新，未来的智能设备将更加智能、高效和便捷。NPU也将在这一过程中发挥更加重要的作用。据悉安谋科技的下一代“周易”NPU在生态上已广泛部署了Wenxin、Llama、GPT等模型，并在端侧覆盖了平板电脑（PAD）、PC、手机（Mobile）等各类场景。对于智能汽车领域无论是IVI还是ADAS场景都能根据实际算力需求和模型提供针对性的解决方案最高可达320TOPS的算力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
30728

浏览量
268874
NPU

NPU

+关注

关注
2

文章
279

浏览量
18582
AIGC

AIGC

+关注

关注
1

文章
361

浏览量
1539

中信建投建议关注端侧AI模组机会

中信建投近日发布的研报指出，随着OpenAI的ChatGPT功能全面接入苹果设备，包括iPhone、iPad和Mac，端侧AI产业的发展正在加速。这一趋势为AI模组市场带来了新的机遇。

发表于 12-17 14:05 •217次阅读

广和通开启端侧AI新时代

AI发展正酣，随着终端芯片算力越来越高、端侧模型能力越来越强、实时响应及隐私保护的端侧应用需求增加，端

发表于 12-12 10:35 •162次阅读

MediaTek天玑移动平台赋能腾讯会议端侧AI人像分割模型

MediaTek 与腾讯会议联合优化的端侧 NPU 虚拟背景功能，已在搭载 MediaTek 天玑旗舰芯的终端正式上线。作为双方初次开展的软硬件生态合作，此次联合优化旨在充分利用天玑移动平台的

发表于 11-29 15:30 •179次阅读

把握关键节点，美格智能持续推动端侧AI规模化拓展

当前，AI大模型走向端侧已经是大势所趋，端侧AI的发

发表于 11-26 01:00 •131次阅读

把握关键节点，美格智能持续推动端侧AI规模化拓展

当前，AI大模型走向端侧已经是大势所趋，端侧AI的发

发表于 11-25 16:45 •232次阅读

端侧AI，风起移动智能计算

新一代骁龙旗舰芯片，端侧AI的繁荣肇始

发表于 11-22 09:55 •2241次阅读

智能无处不在：安谋科技“周易”NPU开启端侧AI新时代

的需求，将AI的触角延伸至世界的每一个角落。近日，在EEVIA主办的第12届中国硬科技产业链创新趋势峰会暨百家媒体论坛上，安谋科技产品总监鲍敏祺发表了精彩的主题演讲《端侧AI应用芯机

发表于 11-15 11:42 •150次阅读

NPU技术如何提升AI性能

设计的处理器，与传统的CPU和GPU相比，它在执行深度学习任务时具有更高的效率和更低的能耗。NPU通过专门优化的硬件结构和指令集，能够更快地处理神经网络中的大量并行计算任务。 1. 优化硬件架构 NPU技术通过优化硬件架构来提升AI

发表于 11-15 09:11 •411次阅读

端侧AI浪潮已来！炬芯科技发布新一代端侧AI音频芯片，能效比和AI算力大幅度提升

电子发烧友原创章鹰 11月5日，在深圳会展中心7号馆内，炬芯科技董事长兼CEO周正宇博士带来了《端侧AI芯片的未来》演讲，他对端侧

发表于 11-06 09:11 •2465次阅读

飞凌微CEO邵科：车载视觉处理新品助力智驾视觉系统升级，端侧AI应用加速落地

2024年，算力仍然是大模型持续迭代的根本动力，AI走向端侧是大势所趋。咨询机构IDC在今年7月发布最新预测，2024年全球AI智能手机出货

发表于 10-31 01:17 •5114次阅读

广和通端侧AI解决方案驱动性能密集型场景商用型场景商用

2024世界机器人大会期间，广和通宣布：基于高通QCS8550平台的广和通端侧AI解决方案高效使能性能密集型场景。该端侧

发表于 08-23 16:06 •296次阅读

广和通端侧AI解决方案驱动性能密集型场景商用型场景商用

2024世界机器人大会期间，广和通宣布：基于高通QCS8550平台的广和通端侧AI解决方案高效使能性能密集型场景。该端侧

发表于 08-23 16:05 •656次阅读

电梯物联网技术如何解决电梯管理的痛点？

随着物联网技术的不断发展，电梯行业也迎来了新的变革。电梯物联网技术的应用为电梯管理带来了许多新的机遇和优势，同时也有效地解决了传统电梯管理中存在的各种痛点。本文梯云物联网将探讨电梯物联网技术如何解决电梯管理的

发表于 03-19 10:09 •523次阅读

NPU是什么？为何它是开启终端侧生成式AI的关键？

生成式AI变革已经到来。随着生成式AI用例需求在有着多样化要求和计算需求的垂直领域不断增加，我们显然需要专为AI定制设计的全新计算架构。这首先需要一个面向生成式AI全新设计的神经网络处

发表于 03-07 11:25 •2081次阅读

荣耀引领端侧AI新时代

在今年的MWC盛会上，荣耀宣布与高通、Meta携手，将70亿参数大模型引入端侧，这一创新举措预示着端侧AI新时代的到来。荣耀终端CEO赵明在

发表于 03-01 10:28 •630次阅读