ADS算力芯片的多模型架构研究-电子发烧友网

在过去十几年里，深度神经网络（DNN）得到了广泛应用，例如移动手机，AR/VR，IoT和自动驾驶等领域。复杂的用例导致多DNN模型应用的出现，例如VR的应用包含很多子任务：通过目标检测来避免与附近障碍物冲突，通过对手或手势的追踪来预测输入，通过对眼睛的追踪来完成中心点渲染等，这些子任务可以使用不同的DNN模型来完成。像自动驾驶汽车也是利用一系列DNN的算法来实现感知功能，每个DNN来完成特定任务。然而不同的DNN模型其网络层和算子也千差万别，即使是在一个DNN模型中也可能会使用异构的操作算子和类型。

此外，Torch、TensorFlow和Caffe等主流的深度学习框架，依然采用顺序的方式来处理inference 任务，每个模型一个进程。因此也导致目前NPU架构还只是专注于单个DNN任务的加速和优化，这已经远远不能满足多DNN模型应用的性能需求，更迫切需要底层新型的NPU计算架构对多模型任务进行加速和优化。而可重配NPU虽然可以适配神经网络层的多样性，但是需要额外的硬件资源来支持（比如交换单元，互联和控制模块等），还会导致因重配网络层带来的额外功耗。

开发NPU来支持多任务模型面临许多挑战：DNN负载的多样性提高了NPU设计的复杂度；多个DNN之间的联动性，导致DNN之间的调度变得困难；如何在可重配和定制化取得平衡变得更具挑战。此外这类NPU在设计时还引入了额外的性能标准考量：因多个DNN模型之间的数据共享造成的延时，多个DNN模型之间如何进行有效的资源分配等。

目前的设计研究的方向大体可以分成以下几点：多个DNN模型之间并行化执行，重新设计NPU架构来有效支持DNN模型的多样性，调度策略的优化等。

DNN之间的并行性和调度策略：

可以使用时分复用和空间协同定位等并行性策略。调度算法则大概可以分为三个方向：静态与动态调度，针对时间与空间的调度，以及基于软件或者硬件的调度。

时分复用是传统优先级抢占策略的升级版，允许inter-DNN的流水线操作，来提高系统资源的利用率（PE和memory等）。这种策略专注调度算法的优化，好处是对NPU硬件的改动比较少。

空间协同定位则专注于多个DNN模型执行的并行性，也就是不同DNN模型可以同时占用NPU硬件资源的不同部分。这要求在设计NPU阶段就要预知各个DNN网络的特性以及优先级，以预定义那部分NPU硬件单元分配给特定的DNN网络使用。分配的策略可以选择DNN运行过程中的动态分配，或者是静态分配。静态分配依赖于硬件调度器，软件干预较少。空间协同定位的好处是可以更好的提高系统的性能，但是对硬件改动比较大。

动态调度与静态调度则是根据用户用例的特定目标来选择使用动态调度或者静态调度。

动态调度的灵活性更高，会根据实际DNN任务的需求重新分配资源。动态调度主要依赖于时分复用，或者利用动态可组合引擎（需要在硬件中加入动态调度器），算法则多数选择preemptive策略或者AI-MT的早期驱逐算法等。

对于定制化的静态调度策略，可以更好的提高NPU的性能。这种调度策略是指在NPU设计阶段就已经定制好特定硬件模块去处理特定神经网络层或者特定的操作。这种调度策略性能高，但是硬件改动比较大。

异构NPU架构：

结合动态可重构和定制化的静态调度策略，在NPU中设计多个子加速器，每个子加速器都是针对于特定的神经网络层或者特定的网络操作。这样调度器可以适配多个DNN模型的网络层到合适的子加速器上运行，还可以调度来自于不同DNN模型的网络层在多个子加速器上同步运行。这样做既可以节省重构架构带来的额外硬件资源消耗，又可以提高不同网络层处理的灵活性。

异构NPU架构的研究设计可以主要从这三个方面考虑：

1）如何根据不同网络层的特性设计多种子加速器；

2）如何在不同的子加速器之间进行资源分布；

3）如何调度满足内存限制的特定网络层在合适的子加速器上执行。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

加速器

加速器

+关注

关注
2

文章
813

浏览量
38364
神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101578
算力芯片

算力芯片

+关注

关注
0

文章
48

浏览量
4620

原文标题：ADS算力芯片的多模型架构研究

文章出处：【微信号：iotmag，微信公众号：iotmag】欢迎添加关注！文章转载请注明出处。

ChatGPT背后的算力芯片

今年以来可以说是最热的赛道，而AI大模型对算力的需求爆发，也带动了AI服务器中各种类型的芯片需求，所以本期核芯观察将关注ChatGPT背后所用到的算

发表于 05-21 00:01 •3693次阅读

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

工作日内未联系，视为放弃本次试用评测资格！书籍介绍大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础，是针对其需求设计的算力及基础架构

发表于 08-16 18:33

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能，是一个极为重要的问题，带着这个极为重要的问

发表于 08-20 09:04

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

追求单核心性能转向追求并行度，关注并研究算力芯片，这个方向是绝对没错的。这些年作者在自己所工作的量化金融行业取得的成绩有目共睹，他作为算

发表于 09-02 10:09

【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

国庆前就收到《大模型时代的基础架构》一书，感谢电子发烧友论坛。欢度国庆之余，今天才静下心来体验此书，书不厚，200余页，彩色图例，印刷精美！当初申请此书，主要是看到副标题“大模型算

发表于 10-08 10:40

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解，理论联系实际，使读者能更好理解

发表于 10-15 22:08

算力网络的架构

算力网络的核心特征，是它通过算力，实现了对算力资源、网络资源的全面接管，可以让网络实时感知用户的

发表于 08-17 09:32 •5761次阅读

1000TOPS背后的“大算力芯片”

不断发展的人工智能也对芯片的算力提出更高的要求。人工智能的应用对于算力最大的挑战依然来自于核心数据中心的

发表于 12-12 15:53 •3902次阅读

AI算力研究框架（2023）

Transfomer架构大模型训练对算力的消耗呈指数级增长。2023年1月，ChatGPT计划再向微软融资100亿美金，该融资将是新一代大模型

发表于 06-15 14:54 •959次阅读

打通AI芯片到大模型训练的算力桥梁，开放加速设计指南强力助推

等产业议题进行研讨分享。面向大模型时代的计算需求，算力创新已不仅是单个处理器微架构和芯片工艺的突破，而需要产业携手进行软硬件全栈系统

发表于 10-17 16:51 •957次阅读

PODsys：大模型AI算力平台部署的开源“神器”

大模型是通用人工智能的底座，但大模型训练对算力平台的依赖非常大。大模型算

发表于 11-08 09:17 •1072次阅读

浅谈为AI大算力而生的存算-体芯片

大模型爆火之后，存算一体获得了更多的关注与机会，其原因之一是因为存算一体芯片的裸算力相比传统

发表于 12-06 15:00 •478次阅读

浪潮信息与智源研究院携手共建大模型多元算力生态

近日，浪潮信息与北京智源人工智能研究院正式签署战略合作协议，双方将紧密合作，共同构建大模型多元算力开源创新生态。此次合作旨在提升大模型创新

发表于 12-31 11:49 •363次阅读

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

发表于 01-16 10:24 •190次阅读

DeepSeek对芯片算力的影响

DeepSeek模型，尤其是其基于MOE（混合专家）架构的DeepSeek-V3，对芯片算力的要求产生了深远影响。为了更好地理解这一影响，我

发表于 02-07 10:02 •596次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

ADS算力芯片的多模型架构研究

评论

ChatGPT背后的算力芯片

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

大模型时代的算力需求

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

算力网络的架构

1000TOPS背后的“大算力芯片”

AI算力研究框架（2023）

打通AI芯片到大模型训练的算力桥梁，开放加速设计指南强力助推

PODsys：大模型AI算力平台部署的开源“神器”

浅谈为AI大算力而生的存算-体芯片

浪潮信息与智源研究院携手共建大模型多元算力生态

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

DeepSeek对芯片算力的影响