0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NPU和AI TOPS是什么?它们有哪些性能?

高通中国 来源:高通中国 2024-06-13 10:33 次阅读

在当今快速发展的技术环境中,AI正在变革各行各业并推动创新,理解AI性能指标的复杂性至关重要。过去许多AI模型需要在云端运行。当我们走向由终端侧生成式AI处理定义的未来时,我们必须能够评估计算平台可运行AI模型的性能、准确性和效率。如今,TOPS(每秒万亿次运算)是衡量处理器AI性能的主要方式之一。TOPS是基于处理器所需的架构和频率,衡量处理器潜在AI推理峰值性能的方法,比如神经网络处理器(NPU)。下面我们将深入探讨。

NPU是什么?

在深入探讨TOPS的具体内容之前,让我们先看看NPU的重要性。对于终端侧AI处理,NPU在提高效率、为个人用户和企业提供创新的应用体验方面发挥着关键作用。评估这些专用处理器的性能需要全面了解其能力背后的关键指标。

NPU的演进改变了人们处理计算的方式。传统上,CPU负责执行AI算法。随着对处理性能的需求飙升,专用NPU应运而生,成为处理AI相关软件应用的专用解决方案。NPU旨在高效处理AI任务所需的复杂数学计算,提供出色的效率、性能和能效。

AI TOPS是什么?

TOPS作为展示处理器计算能力的指标,是衡量NPU性能的核心。

TOPS通过以万亿单位测量一秒钟内执行的运算(加法、乘法等)次数来量化NPU处理能力。

这种标准化测量方式非常明确地显示了NPU的性能,可作为比较不同处理器和架构AI性能的关键指标。因为TOPS是针对NPU的基础性能指标,探索TOPS的计算参数以及它们如何决定性能至关重要,这有助于更深入地了解NPU的能力。

乘法累加(MAC)运算执行AI工作负载中的核心数学公式。矩阵乘法由两类基础运算组成:累加器的乘法和加法。例如,一个MAC单元可在每个时钟周期内运行两类基础运算各一次,意味着它在每个时钟周期内执行两个运算。一个给定的NPU有一定数量的MAC单元,能够在不同精度级别进行运算,这取决于NPU架构。

频率决定NPU及其MAC单元(以及CPU或GPU)运算的时钟速度(或每秒周期数),直接影响整体性能。更高的频率允许在单位时间内执行更多运算,从而提高处理速度。但是,提高频率也会导致更高功耗和发热,影响电池续航和用户体验。处理器TOPS计算通常使用峰值运行频率。

精度指计算的颗粒度,通常精度越高模型准确性就越高,需要的计算强度也越高。最常见的高精度AI模型为32位和16位浮点精度,而速度更快的低精度低功耗模型通常使用8位和4位整数精度。当前行业标准为以INT8精度评估AI推理性能TOPS。

计算TOPS要从计算OPS开始,OPS等于MAC单元数乘以运行频率的两倍。TOPS数量是OPS除以一万亿的值,将公式更简单地列出,即TOPS = 2×MAC单元数×频率/1万亿。

TOPS和实际性能

尽管TOPS提供了探索NPU能力的重要信息,我们仍必须将理论指标和实际应用联系起来。毕竟,仅仅有高TOPS值并不能保证最佳的AI性能;各种因素协同作用的结果才能真正决定NPU实力。

因此评估NPU性能时要考虑内存带宽、软件优化和系统集成等方面的因素。基准测试可以帮助我们超越数字,了解NPU在实际场景中的表现,其中时延、吞吐量和能效尤为重要。

Procyon AI基准测试使用真实工作负载来帮助将理论性的TOPS评估转化为用户在使用AI推理的真实应用中对响应和处理能力的预期。它以多个精度运行六个模型,提供NPU不同性能表现的详细洞察。类似模型在生产力、媒体、创作者和其他应用中越来越常见。在Procyon AI和其他基准测试中有更快的性能表现,与实现更快推理和更好用户体验息息相关。

为此,分析实际性能可以为NPU的能力和局限性提供宝贵洞察。必须从可行性和实用性角度检验性能指标。

未来NPU性能指标

随着技术不断快速发展,数字化转型需求持续影响各行各业,NPU性能指标格局将进一步演进。尽管新兴趋势正在更广泛地定义和评估NPU性能与计算的方式,TOPS仍是很好的性能指标,将在很长一段时间内继续作为重要参考。

随着各种AI新技术在未来几年受到关注并重新定义无数行业,对能够反应不同技术独特特征的可靠性能指标的需求将不断凸显。适应性、可扩展性和实际应用相关性将定义未来的NPU性能指标。

根据用户需求评估NPU性能

应对快速变化的NPU性能评估领域或许会让人望而生畏,但随着数字化转型(尤其是在AI领域)持续快速发展,深入了解TOPS对行业和个人来说都很重要。

最终,选择合适的系统级芯片(SoC)取决于用户、客户或组织的工作负载和优先级,而这一决策很可能需要取决于SoC中的NPU。

无论用户是优先考虑原始算力、能效还是模型准确度,骁龙X系列平台面向笔记本电脑,配备高达45TOPS的NPU,能够强力赋能PC,并将实际可用的AI体验引入用户的工作流程。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 高通
    +关注

    关注

    76

    文章

    7456

    浏览量

    190531
  • AI
    AI
    +关注

    关注

    87

    文章

    30656

    浏览量

    268827
  • NPU
    NPU
    +关注

    关注

    2

    文章

    277

    浏览量

    18581

原文标题:AI TOPS和NPU性能指标指南

文章出处:【微信号:Qualcomm_China,微信公众号:高通中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Lunar Lake:NPU性能全面提升,能耗也大幅降低,综合AI算力提升至120TOPS

    英特尔CEO帕特·基辛格在COMPUTEX 2024上发表主题演讲,正式公布了下一代面向AI PC的移动处理器Lunar Lake,不仅CPU、GPU、NPU性能全面提升,能耗也大幅降低,综合
    的头像 发表于 06-05 15:54 8365次阅读
    Lunar Lake:<b class='flag-5'>NPU</b><b class='flag-5'>性能</b>全面提升,能耗也大幅降低,综合<b class='flag-5'>AI</b>算力提升至120<b class='flag-5'>TOPS</b>

    刷新AI PC NPU算力,AMD锐龙AI 9 HX 375领衔55 TOPS

    NPU性能第一梯队。而此次推出的Ryzen AI 9 HX 375算力进一步提升至55 TOPS。在NPU算力这条路上AMD甚是积极。  
    的头像 发表于 08-07 00:28 3314次阅读
    刷新<b class='flag-5'>AI</b> PC <b class='flag-5'>NPU</b>算力,AMD锐龙<b class='flag-5'>AI</b> 9 HX 375领衔55 <b class='flag-5'>TOPS</b>

    BananaPi BPI-M2S 是新设计的一款单板计算机,采用Amlogic A311D,NPU for AI 支持 5.0 TOPS算力,板载4G内存和16gb eMMC存储

    G52 MP4(6EE) GPU,NPU for AI 支持 5.0 TOPS算力,支持摄像头和MIPI-CSI接口,HDMI输出,2个全千兆接口。板载4G内存和16gb eMMC存储
    发表于 09-30 12:41

    BananaPi BPI-M2S 采用Amlogic A311D,NPU for AI 支持 5.0 TOPS算力,板载4G内存和16gb eMMC存储

    G52 MP4(6EE) GPU,NPU for AI 支持 5.0 TOPS算力,支持摄像头和MIPI-CSI接口,HDMI输出,2个全千兆接口。板载4G内存和16gb eMMC存储
    发表于 09-30 14:37

    基于RKNN程序开发和模型转换的NPU简要说明

    /16bit 运算,运算性能高达 3.0TOPS。相较于 GPU 作为 AI 运算单元的大型芯片方案,功耗不到 GPU 所需要的 1%。可直接加载 Caffe / Mxnet / TensorFlow 模型
    发表于 05-31 11:10

    AIO-3399ProC NPU开发相关资料推荐

    “USB3.0方式连接的NPU”,具体使用方法和注意事项请查看补丁注释。注意:PCIE-NPU加速补丁默认没有启用,具体启用方法和注意事项请查看补丁注释。NPU特性支持 8bit/16bit 运算,运算
    发表于 07-01 17:38

    恩智浦最新的应用处理器 i.MX 95采用专有NPU IP进行片上AI加速

    恩智浦最新的应用处理器 i.MX 95 使用恩智浦专有的 NPU IP 进行片上 AI 加速,这与之前使用第三方 IP 的 i.MX 系列产品有所不同。实际上,越来越多的嵌入式处理器公司正在使用自己
    发表于 02-16 11:20

    瑞芯微首款AI芯片RK3399Pro:NPU性能达2.4TOPs

    NPU性能达2.4TOPs! 首先在CES 2018年消费电子展前夜,瑞芯微就宣布,向全球正式推出旗下首款性能超强的AI处理器RK3399
    发表于 01-11 01:53 5264次阅读
    瑞芯微首款<b class='flag-5'>AI</b>芯片RK3399Pro:<b class='flag-5'>NPU</b><b class='flag-5'>性能</b>达2.4<b class='flag-5'>TOPs</b>!

    TOPS 与现实世界的性能AI 加速器的基准性能

    蓬勃发展的机器学习和人工智能新兴用例有望通过加速信息处理和提高决策准确性为行业创造重大价值。但机器学习模型是计算密集型、需要高频和实时 AI 分析场景,这导致企业依赖于使用每秒万亿次操作 (TOPS
    的头像 发表于 07-14 17:17 1882次阅读

    BananaPi BPI-M2S 采用Amlogic A311D开发的AI开发板,NPU AI 支持 5.0 TOPS算力,

    BananaPi BPI-M2S 是香蕉派开源社区新设计的一款单板计算机,采用Amlogic A311D,NPU for AI 支持 5.0 TOPS算力,板载4G内存和16gb eMMC存储
    的头像 发表于 08-22 16:00 1042次阅读
    BananaPi BPI-M2S 采用Amlogic A311D开发的<b class='flag-5'>AI</b>开发板,<b class='flag-5'>NPU</b> <b class='flag-5'>AI</b> 支持 5.0 <b class='flag-5'>TOPS</b>算力,

    npu是什么意思?npu芯片是什么意思?npu到底什么用?

    npu是什么意思?npu芯片是什么意思?npu到底什么用?  NPU的概念 NPU(Neura
    的头像 发表于 08-27 17:03 4.2w次阅读

    AI PC市场争霸:英特尔、AMD、高通芯片算力谁主沉浮?

    目前英特尔的Meteor Lake处理器NPU只能提供10 TOPS性能,没有达到下一代AI PC的标准。而 Lunar Lake 的 NPU
    发表于 04-18 14:29 409次阅读

    AI PC引发的NPU大战?英特尔:仅30%开发者选择NPU

    随着COMPUTEX 2024的日益临近,关于人工智能(AI)个人计算机(PC)的话题开始变得愈发热门和受关注。据微软公司近期发布的相关技术规范要求,所有运行Windows操作系统的AI PC必须配备本地运行Copilot的功能机制,并安装容量至少为40
    的头像 发表于 06-03 17:24 852次阅读

    40+TOPS NPUAI PC处理器开卷算力

    的人工智能任务。同时,微软还提出,这款全新电脑搭配拥有全新神经处理单元NPU的芯片,可实现每秒超过40万亿次即40+TOPS的运算。那么也就是说,若要符合微软给出的AI PC的定义,NPU
    的头像 发表于 07-14 01:11 4541次阅读
    40+<b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>,<b class='flag-5'>AI</b> PC处理器开卷算力

    NPU技术如何提升AI性能

    随着人工智能技术的飞速发展,深度学习作为AI领域的核心驱动力,对计算能力的需求日益增长。NPU技术应运而生,为AI性能的提升提供了强大的硬件支持。
    的头像 发表于 11-15 09:11 402次阅读