0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何提升NPU的能效比?

佐思汽车研究 来源:佐思汽车研究 作者:Nathan J 2022-08-01 11:19 次阅读

现如今,深度神经网络正在以越来越大的规模部署,横跨了从云端,自动驾驶IoT等平台。比如用于图像识别,语音识别及翻译,癌症检测以及自动驾驶中对感知层海量数据的处理等。在很多领域,深度神经网络的精度已经超越人类,它的优越性来源于它对原始数据的特征提取,并通过对大量数据的学习来获取输入空间的有效表征,但是它的高精度是以超高计算复杂度为代价。因此很多厂商都在追逐NPU的算力来解决这些复杂问题,但是随着算力的提高,NPU设计也越来越复杂,将伴随着面积和功耗的增加,这对于那些面积和功耗有很大限制的设备带来了挑战,因此如何提升NPU的能效比就成了亟待解决的问题。

6bdd29be-1147-11ed-ba43-dac502259ad0.png

NPU通过数据分区和有效调度,利用数据的重用以及执行分段来提高能效比和硬件利用率,而实现高利用率,数据重用将直接依赖于如何调度深度神经网络的计算和如何将这些计算有效的映射到NPU的硬件单元上。以CNN为例,数据流无非包含三个方面filter(Weight),ifmap和ofmap,如下图。

6bf2bb62-1147-11ed-ba43-dac502259ad0.png

因此在设计NPU时需要考虑如利用内存的层次结构,决定哪些数据要读到那一层的内存中以及什么时候被处理,如何可以重用filter,ifmap和ofmap,将他们存放在本地内存中,从而大大减少DRAM的访问次数,这将在很大程度上提高NPU的硬件利用率及性能,并减少由于DRAM访问带了的额外功耗。根据数据处理特征可以将数据流分为以下几类:

1)、静态weight

weight静态数据流的设计是通过在PE的RF(Register File)中存取weight,来减少读取weight产生的功耗。weight从DRAM读取到RF并保持静态以供进一步访问,NPU在计算时尽可能多的利用RF中的weight以达到最大程度的重用。通常的实现是将ifmap广播给所有的PE,部分和(Psum)将穿过所有的PE来完成空间上的累加。

6c0593b8-1147-11ed-ba43-dac502259ad0.png

2)、静态输出

输出静态数据流的设计是通过将accumulator产生的Psum存放到本地的RF中,以避免将Psum刚写入DRAM再读回,从而减少因Psum读写产生的功耗。通常的实现是流式输入Activation,并将weight广播给所有的PE。

6c19630c-1147-11ed-ba43-dac502259ad0.png

3)、无本地重用

如果考虑到RF会增大面积,可以将所有的数据都存放到Global Buffer中,这样没有任何数据会留在PE的RF,也不会增设RF单元来减小面积,但是增加了PE和Global Buffer的数据交互。具体来说是通过多广播Activation,单广播Weight以及Psum穿过所有的PE进行累加来实现的。

6c29f104-1147-11ed-ba43-dac502259ad0.png

4)、静态行

静态行数据流的目标是将所有的数据类型(Activation,weight, psum)的重用和计算都在RF中完成,来提升总体的能效。它区别于上面的静态weight和静态输出,只是分别对weight和psum进行优化。

6c3b85a4-1147-11ed-ba43-dac502259ad0.png

具体选用哪种数据流方式要结合NPU微架构的设计。下面总结了来自于几个厂家的NPU,它们分别利用了不同数据流类型来提高能效比。

6c461b0e-1147-11ed-ba43-dac502259ad0.png

参考文献:

【1】Vivienne S. Yu-Hsin C.and etc., “Efficient Processing of Deep Neural Networks: A Tutorial and Survey”

关于复睿微电子

复睿微电子是世界500强企业复星集团出资设立的先进科技型企业。复睿微电子植根于创新驱动的文化,通过技术创新改变人们的生活、工作、学习和娱乐方式。公司成立于2022年1月,目标成为世界领先的智能出行时代的大算力方案提供商,致力于为汽车电子人工智能、通用计算等领域提供以高性能芯片为基础的解决方案。

目前主要从事汽车智能座舱、ADS/ADAS芯片研发,以领先的芯片设计能力和人工智能算法,通过底层技术赋能,推动汽车产业的创新发展,提升人们的出行体验。在智能出行的时代,芯片是汽车的大脑。复星智能出行集团已经构建了完善的智能出行生态,复睿微是整个生态的通用大算力和人工智能大算力的基础平台。复睿微以提升客户体验为使命,在后摩尔定律时代持续通过先进封装、先进制程和解决方案提升算力,与合作伙伴共同面对汽车智能化的新时代。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    455

    文章

    50832

    浏览量

    423812
  • 神经网络
    +关注

    关注

    42

    文章

    4772

    浏览量

    100789
  • NPU
    NPU
    +关注

    关注

    2

    文章

    285

    浏览量

    18619

原文标题:ADS算力芯片NPU数据流的重用性

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    IO模块助力PLC,全面提升中水处理设备

    随着我国环保事业的不断发展,中水处理技术在工业、生活等领域发挥着越来越重要的作用。如何提高中水处理设备的,成为行业关注的焦点。本文将为您介绍明达技术高效解决方案——利用自主研发的分布式IO模块配合PLC,实现中水处理设备
    的头像 发表于 12-16 14:57 98次阅读
    IO模块助力PLC,全面<b class='flag-5'>提升</b>中水处理设备<b class='flag-5'>能</b><b class='flag-5'>效</b>

    Erp指令

    ErP指令EC244/2009、EC245/2009、EU1194/2012和标签指令EU874/2012已经实行多年,欧盟委员会在近3年通过参照不断改进的照明产品技术、环境和经济因素以及实际
    的头像 发表于 11-20 23:57 173次阅读
    Erp指令<b class='flag-5'>能</b><b class='flag-5'>效</b>

    NPU与机器学习算法的关系

    在人工智能领域,机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升,对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机器学习任务设计的处理器,其与机器学习算法的关系日益
    的头像 发表于 11-15 09:19 464次阅读

    NPU的工作原理解析

    神经网络的计算流程,显著提高了处理速度和NPU通常集成在SoC(System on Chip)中,与CPU和GPU协同工作,共同完成复杂的计算任务。 NPU的架构
    的头像 发表于 11-15 09:17 688次阅读

    NPU在边缘计算中的优势

    和GPU相比,NPU在处理神经网络相关的计算任务时,能够提供更高的和更快的处理速度。NPU通过优化数据流和计算结构,使得神经网络的前向
    的头像 发表于 11-15 09:13 390次阅读

    NPU技术如何提升AI性能

    随着人工智能技术的飞速发展,深度学习作为AI领域的核心驱动力,对计算能力的需求日益增长。NPU技术应运而生,为AI性能的提升提供了强大的硬件支持。 NPU技术概述 NPU是一种专门为深
    的头像 发表于 11-15 09:11 463次阅读

    什么是NPU芯片及其功能

    的设计灵感来源于人脑的神经网络结构。人脑通过神经元和突触的复杂网络处理信息,而NPU芯片则通过模拟这种结构来提高数据处理的效率。与传统的CPU和GPU相比,NPU芯片在处理深度学习任务时具有更高的
    的头像 发表于 11-14 15:48 1338次阅读

    AcrelEMS企业微电网管理平台如何辅助企业进行能源平衡优化?

    安科瑞徐赟杰 18706165067 摘要 2022年6月29日工信部、发改委、财政部、生态环境部、国资委、市场监管总局六部门联合下发《关于印发工业提升行动计划的通知》(工信部联节〔2022
    的头像 发表于 11-13 11:13 148次阅读
    AcrelEMS企业微电网<b class='flag-5'>能</b><b class='flag-5'>效</b>管理平台如何辅助企业进行能源平衡优化?

    智慧水务综合管理系统-提高污水厂

    简婷 安科瑞电气股份有限公司 上海嘉定 201801 AcrelEMS-SW智慧水务管理平台 1平台概述 安科瑞电气具备从终端感知、边缘计算到管理平台的产品*态体系,Acrel
    的头像 发表于 10-21 14:14 194次阅读
    智慧水务综合<b class='flag-5'>能</b><b class='flag-5'>效</b>管理系统-提高污水厂<b class='flag-5'>能</b><b class='flag-5'>效</b>

    利用AI和加速计算提升天气预报效率和

    在 NVIDIA GPU 驱动的扩散模型助力下,生成式 AI 在各个领域实现新的应用,大大提升了效率。   当台湾气象员得以在一台机器上模拟台风的细节,他们深感其对预报任务的巨大提升
    的头像 发表于 06-07 15:06 554次阅读

    重磅!英特尔发布intel3制程至强6核处理器,赋数据中心升级

    、横向扩展工作负载带来性能与的双重提升,同时携手金山云、浪潮信息、南大通用,以及记忆科技等多家生态合作伙伴,分享基于该处理器的端到端创新解决方案,及其在诸多领域的实践成果与应用价值。
    的头像 发表于 06-07 10:38 5124次阅读
    重磅!英特尔发布intel3制程至强6<b class='flag-5'>能</b><b class='flag-5'>效</b>核处理器,赋<b class='flag-5'>能</b>数据中心<b class='flag-5'>能</b><b class='flag-5'>效</b>升级

    AMD披露高效数据中心策略,预计至2027年提升超百倍

    会议期间,苏姿丰谈论了AMD如何通过实施30x25战略推动2025年计算节点提升30倍的目标。她进一步透露,AMD已找到2026年至2027年间将能
    的头像 发表于 05-24 17:37 1025次阅读

    天玑9300旗舰芯:全大核CPU架构,性能与提升

    “全大核”CPU 架构设计打破常规,摒弃小核,采用超大核(Arm Cortex-X)与大核(Arm Cortex-A)的组合,以更高时钟频率提升性能和,同时降低功耗,延长电池寿命。
    的头像 发表于 05-06 10:22 631次阅读

    智慧水务管理平台-为污水处理的管理提供科学、精细的解决方案

    程瑜 安科瑞电气股份有限公司 上海嘉定 201801 AcrelEMS-SW智慧水务管理平台 1平台概述 安科瑞电气具备从终端感知、边缘计算到管理平台的产品*态体系,Acrel
    的头像 发表于 04-18 15:50 451次阅读
    智慧水务<b class='flag-5'>能</b><b class='flag-5'>效</b>管理平台-为污水处理的<b class='flag-5'>能</b><b class='flag-5'>效</b>管理提供科学、精细的解决方案

    AI PC 2024年出货占达18%,将实现重大转变

    AI PC的独特之处在于配备了神经处理单元(NPU)等专业人工智能处理器,可提升生产效率、满足个性化需求及提升,从而改变个人电脑市场格局
    的头像 发表于 03-19 10:41 442次阅读