ADS-NPU芯片内存计算之设计挑战

　　作者 | Dr. Luo

　　简介：东南大学工学博士，英国布里斯托大学博士后，复睿微电子英国研发中心GRUK首席AI科学家，常驻英国剑桥。Dr. Luo长期从事科学研究和机器视觉先进产品开发，曾在某500强ICT企业担任机器视觉首席科学家。

　　AI算法在自动驾驶 ADS领域的行业应用，其当前从感知到认知的演进方向，主要体现在：

　　1）能够在统一空间支持多模传感器感知融合与多任务共享，在提升有限算力的计算效率的同时，确保算法模型在信息提取中对极端恶劣场景（雨雪雾、低照度、高度遮挡、传感器部分失效、主动或被动场景攻击等）的泛化感知能力，降低对标注数据和高清地图的过度依赖；

　　2）预测与规划联合建模，离线与在线学习相结合，监督与自监督学习相结合，从而能够处理不确定性下的安全行驶与有效决策，提供认知决策行为的可解释问题，通过持续学习解决新场景问题。

　　当前，对应于ADS传感器负载多样化和融合感知决策算法多样化的演进趋势，ADS的算力需求和芯片加速能力以（十倍速/每几年）的持续高增长态势呈现。ADS领域大算力NPU芯片的当前发展现状，真可谓是：大算力之时代，以感知策，四两拨千斤者；狂洗牌乎战局，唯快应变，一力降十会也。

　　图1. DNN任务占比分析： CNN vs Transformer

　　（图表分析来自文献1）

　　如图1 所示，ADS算法从Compute-bound向Memory-bound演进。ADS的存算混合需求，可以通过“硬件预埋，算法迭代，算力均衡“ ，来提供一个向前兼容的解决方案，以通用大算力NPU设计来解决算法未来的不确定性，具体体现在：1）底层架构的演进：从存算分离到近内存计算，最终走向内存计算; 2）数据通道与模型：高速数据接口+数据压缩+模型压缩+低精度逼近计算+稀疏计算加速; 3）并行的顶层架构：模型-硬件联合设计，以及硬设计可配置+硬件调度+软运行可编程调度引擎。

　　老子曾曰“合抱之木，生于毫末；九层之台，起于垒土；千里之行，始于足下。” 老子又曰 ”天下难事，必作于易；天下大事，必作于细。”处理艰难问题从易入手，致力远大目标从微着力。ADS-NPU芯片的架构设计，同样需要用【见微知著】的能力，来解决异构计算、稀疏计算、逼近计算、内存计算等几类常见的难题与挑战。

　　1. 异构计算之设计挑战

　　图2. 脉动阵列架构（图表分析来自文献1）

　　图3. 可配置的脉动阵列架构（图表分析来自文献1）

　　对比CPU十百级的并行处理单元和GPU上万级的并行处理单元，NPU会有百万级的并行计算单元，可以采用Spatial加速器架构来实现，即Spatial PE空间单元阵列通过NoC，数据总线，或跨PE的互联来实现矩阵乘运算（全卷积计算或全连接FC计算）、数据流高速交互、以及运算数据共享。

　　粗颗粒度的可配置架构CGRA是Spatial加速器的一种形态，即可配置的PE Array通过纳秒或微秒级别可配置的Interconnect来对接，可以支持配置驱动或者数据流驱动运行。

　　如图2和图3所示，脉动Systolic加速器架构也是Spatial加速器的一类实现方式，其主要计算是通过1D或2D计算单元对数据流进行定向固定流动处理最终输出累加计算结果，对DNN输出对接卷积层或池化层的不同需求，可以动态调整硬件计算逻辑和数据通道，但存在的问题难以支撑压缩模型的稀疏计算加速处理。

　　NPU的第二类计算单元是Vector矢量加速器架构，面向矢量的Element-wise Sum、Conv1x1卷积、Batch Normalization、激活函数处理等运算操作，其计算可以通过可配置的矢量核来实现，业界常用的设计是标量+矢量+阵列加速器的组合应用来应对ADS多类传感器的不同前处理需求和多样化算法模型流水线并行处理的存算混合需求。

　　NPU SoC也可以采用多核架构技术，即提供千百级的加速器物理核来组件封装和Chiplet片上互联提供更高程度的平行度，尤其是适合大算力下高并行数据负载，这需要底层硬件调度与上层软件调度相结合，提供一个分布式硬件计算资源的细颗粒度运行态调用。

　　NPU另外一个在演进中的内存处理器 PIM架构，即通过将计算靠近存储的方式来降低数据搬移能耗和提升内存带宽。可以分成近内存计算与内存计算两种类型。近内存计算将计算引擎靠近传统的DRAM或者SRAM cell，保持它们的设计特性。

　　内存计算需要对内存cell添加数据计算逻辑，多采用ReRAM或者STT-MRAM新型工艺，目前采用模拟或数字类型的设计，可实现》100TOPS/Watt的PPA性能，但技术难题是如何在运行态时进行大模型参数动态刷新，工艺实现可能也落后于市场预期。

　　图4. AI算法模型负载的算子分布统计（图表分析来自文献2）

　　图5. nVidia A100的TensorCore架构与UPCYCLE 融合架构的计算效率对比

　　（图表分析来自文献2）

　　当前市场上主流AI芯片，常用的架构有以下几种形态：1） GEMM加速架构（TensorCore from nVidia， Matrix Core from AMD）; 2） CGRA （初创公司）; 3） Systolic Array （Google TPU）; 4） Dataflow （Wave， Graphcore，初创公司）; 4） Spatial Dataflow （Samba Nova， Groq）; 5） Sparse架构（Inferentia）。

　　如图4与图5所示案例可以看出，ADS-NPU设计其中有一个挑战是低计算效率问题。异构计算架构一个主要的目的是希望从设计方法学上找到一个硬设计时优化可配置与软运行时动态可编程的平衡点，从而能够提供一个通用的方案覆盖整个设计空间。

　　另外值得一提的是，UPCYCLE 的融合架构案例，涉及到SIMD/Short Vector， Matrix Multiply， Caching， Synchronization等多核优化策略，这个案例，说明只是通过短矢量处理+传统的内存缓存+同步策略的传统方法结合，在不使用标量+矢量+阵列的微架构组合条件下，依旧可以从顶层软件架构层面的优化（指令集和工具链优化策略，模型-硬件联合优化）来实现7.7x整体计算性能提升与23x功耗效率提升。

　　2. 稀疏计算之设计挑战

　　ADS-NPU低效率计算问题，从微架构设计领域，可以涉及到：1）稀疏数据（稀疏DNN网络，或者稀疏输入输出数据）导致PE对大量零值数据的无效计算问题；2）PE之间由于软件硬件调度算法的效率低，PE之间互相依赖导致的延迟问题；3）数据通道与计算通道峰值能力不匹配导致的数据等待问题。

　　上述问题2和问题3可以从顶层架构和存算微架构设计上来有效解决。问题1可以对稀疏数据进行压缩处理来有效提升微架构计算单元PE的效率。如图6和图7所示，稀疏数据图编码的案例，可以有效提升数据存储空间和对数据通道的冲击，计算单元依据非零数据NZVL分布图进行有效甄别计算，以添加简单的逻辑单元为代价就可以将一个72PE的计算效率提升到95%，数据带宽降低40%。

　　图6. 稀疏计算微架构案例（图表分析来自文献3）

　　图7. 稀疏数据图编码案例（图表分析来自文献3）

　　3. 逼近计算之设计挑战

　　图8. 算法模型与量化表征的关系案例（图表分析来自文献6）

　　算法模型与量化表征的关系案例如图8所示，逼近计算设计可以通过算法模型的低比特参数表征+量化后训练的方式，在不降低算法模型精度的情况下，通过时间和空间复用的方式，等效增加低比特MAC PE单元。

　　逼近计算的另外一个优势是可以与稀疏计算相结合。低比特表征会增加数据的稀疏特性，类似ReLU等激活函数和池化计算也会产出大量零值数据。另外浮点数值如果用bit-slices进行表征，也会有大量高位零比特特征。

　　零值输出数据意味着可以通过预计算可以直接跳过后续大量的卷积计算等。如图9所示的案例，其中简单的bit-slice数据分解表征会产生偏置分布，可以通过Signed Bit-Slice方法来解决，从而将PPA性能有效提升到（x4能耗，x5性能，x4面积）。

　　图9. Signed Bit-Slice和RLE游程编码案例（图表分析来自文献4）

　　4. 内存计算之设计挑战

　　ADS-NPU设计其中有一个挑战是数据墙问题能耗墙问题，即计算单元PE存算分离设计导致数据重复搬移，数据共享困难，数据通道与计算通道峰值能力不匹配会导致PE的低效率和SRAM/DRAM高能耗。

　　图10. MRAM取代SRAM案例（图表分析来自文献5）

　　一个有趣的尝试是用新型工艺MRAM （STT/SOT/VGSOT-MRAM）来部分或全部取代SRAM， P0方案是只取代算法模型参数缓存和全局参数缓存；P1方案是MRAM全面取代SRAM。对比SRAM-only架构，从图10 的案例可以看出MRAM-P0解决方案可以有》30%能耗提升，MRAM-P1解决方案有》80%能耗提升，芯片面积减少》30%。

　　图11. Von Neumann与内存计算的架构对比（图表分析来自文献6）

　　图12. 内存计算的模拟墙问题（图表分析来自文献6）

　　当前初创公司的内存计算架构策略需要对内存cell添加数据计算逻辑，通过采用ReRAM或者STT-MRAM新型工艺，采用模拟或数字类型的设计来实现。模拟内存计算IMC对打破传统的Von Neumann计算机架构内存墙和能耗墙应该更有优势，但需要同时打破设计中的模拟墙问题，这也是当前数字设计IMC-SRAM或者IMC-MRAM占多数的原因。

　　如图11和图12所示，IMC的主要问题来自于模数转换ADC/DAC接口和激活函数的接口带来的设计冗余。一种新的实验设计是用基于RRAM的RFIMC微架构（RRAM cells + CLAMP circuits + JQNL-ADCs + DTACs）。每个RRAM cell代表2比特内存数据，4个RAM cell来存储8比特的权重，JQNL-ADC采用8比特浮点数。

　　从图13可以看出RFIMC的微架构能够部分解决模拟墙的问题，可实现》100TOPS/Watt的PPA性能，但存在的问题是，只支持小规模的全矢量矩阵乘，超大尺寸的矩阵乘，需要将模拟数据进行局部搬移，是否有数据墙的问题仍未知。

　　图13. RFIMC的性能分解图（图表分析来自文献6）

　　5. 算法-硬件之共同设计挑战

　　ADS算法多样化的演进趋势和对NPU大算力存算的混合需求，需要算法-NPU联合设计来实现模型整体效率。

　　常用的量化与模型裁剪能够解决一部分问题，模型-硬件联合搜索，可以认为NPU预定义的硬件架构是模板，网络模型ASIC-NAS是一个典型的案例，即在有限硬件计算空间内进行DNN的模型搜索和模型小型化，寻求计算单元的最佳组合模型来提升相同计算复杂度下的等效算力效率。

　　NPU添加了硬件的可配置和细颗粒可调度，但依旧存在很大的性能约束性。如图14 和图15所示，SkyNet算法与硬件共同设计的案例，是将NPU细颗粒度的PE单元进行Bundle优化封装，其价值在于可以降低NAS架构搜索的高维空间，从而减低对硬件底层架构的依赖关系和优化算法的复杂度。

　　图14. SkyNet算法与硬件共同设计案例（图表分析来自文献7）

　　图15. SkyNet-Bundle-NAS示例（图表分析来自文献7）

　　作者 | Dr. L. Luo

　　参考文献：

　　【1】J. Kim， and etc.， “Exploration of Systolic-Vector Architecture with Resource Scheduling for Dynamic ML Workloads”，

　　https://arxiv.org/pdf/2206.03060.pdf【2】M Davies， and etc.， “Understanding the limits of Conventional Hardware Architectures for Deep-Learning”， https://arxiv.org/pdf/2112.02204.pdf

　　【3】C. Wu， and etc.， “Reconfigurable DL accelerator Hardware Architecture Design for Sparse CNN”，

　　https://ieeexplore.ieee.org/document/9602959

　　【4】D. Im， and etc.， “Energy-efficient Dense DNN Acceleration with Signed Bit-slice Architecture”，

　　https://arxiv.org/pdf/2203.07679.pdf

　　【5】V Parmar， and etc.， “Memory-Oriented Design-Space Exploration of Edge-AI Hardware for XR Applications”，

　　https://arxiv.org/pdf/2206.06780.pdf

　　【6】Z Xuan，and etc.， “High-Efficiency Data Conversion Interface for Reconfigurable Function-in-MemoryComputing”，

　　https://ieeexplore.ieee.org/document/9795103

　　【7】X Zhang， and etc.， “Algorithm/Accelerator Co-Design and Co-Search for Edge AI”，

　　https://ieeexplore.ieee.org/document/9785599

阅读全文

传感器(738420) 传感器(738420)
sram(113779) sram(113779)
自动驾驶(162871) 自动驾驶(162871)

基于内存计算技术的AI芯片问世：极大提高性能

通过改变计算的基本属性，美国普林斯顿大学研究人员日前打造的一款专注于人工智能系统的新型计算机芯片，可在极大提高性能的同时减少能耗需求。该芯片基于内存计算技术，旨在克服处理器需要花费大量时间和能量

2018-11-19 10:15:19

1056

麒麟970引入NPU大放异彩，高通引入NPU证明了华为的前瞻性

华为在去年推出的高端芯片麒麟970是业界首次在手机芯片中集成专门为AI计算打造的NPU，而华为更为此开发了HiAI移动计算架构。据测试，麒麟970在执行AI计算任务时，其可以更高效的完成此类任务，较CPU、GPU等芯片的效率更高，具有25倍的性能优势，在图像识别方面可以达到2000张/分钟。

2018-10-09 08:48:57

8635

ADS算力芯片的多模型架构研究

开发NPU来支持多任务模型面临许多挑战：DNN负载的多样性提高了NPU设计的复杂度；多个DNN之间的联动性，导致DNN之间的调度变得困难；如何在可重配和定制化取得平衡变得更具挑战。

2022-07-04 14:28:22

2959

ReRAM在内存计算方面的潜力

随着对人工智能 (AI) 和内存计算的兴趣显着增加，电阻式随机存取存储器 (ReRAM) 可能成为解锁其模仿人脑能力的关键——但挑战依然存在。

2022-07-14 16:08:52

1330

OPPO造芯，首推6nm影像专用NPU芯片剑指夜景视频

火热的芯片市场又迎来了一个新玩家。12月14日，OPPO在主题为“致善·前行”的OPPO 2021年度未来科技大会（OPPO INNO DAY 2021）上正式发布了其首款影像专用NPU——马里亚纳 MariSilicon X芯片。

2021-12-16 13:48:31

2803

ADS1220芯片具体有哪几种应用呢

ADS1220芯片具有哪些功能呢？ADS1220芯片具体有哪几种应用呢？

2022-01-25 06:47:02

ADS8326芯片的时序图与软件如何去实现呢

ADS8326是什么呢？有何优点？ADS8326芯片的时序图与软件如何去实现呢？

2022-01-25 07:44:32

ads1230芯片

用ads1230芯片做的承重板最大量程能达到多少

2015-04-02 11:02:00

npu，vop2

大家好，我在npu使用上遇到了一些问题，请教一下大家，问题如下：我把内核配置里的vop2驱动裁剪了以后，深度学习模型就不能在npu上运行了。可是我如果不裁剪掉vop2，我的核心板就卡死在

2023-11-09 13:51:13

内存芯片封装技术的发展与现状

随着计算机芯片技术的不断发展和成熟，为了更好地与之相配合，内存产品也由后台走出，成为除CPU外的另一关注焦点。作为计算机的重要组成部分，内存的性能直接影响计算机的整体性能。而内存制造工艺的最后一步

2018-08-28 16:02:11

计算机内存莫名占用爆表

今天打开电脑，发现内存占用达百分之九十，调用资源管理器，检查各类程序与进程的内存占用情况，没有发现占用特大的，且全部加起来也远远达不到百分之九十，那些消失的内存到底去哪了，用杀毒软件检查也没发现病毒。哪位计算机高手能帮帮忙

2016-02-18 21:33:04

AIO-3399ProC NPU开发相关资料推荐

1、AIO-3399ProCNPU开发简介AIO-3399ProC 开发者需要注意：NPU推理阶段会与CPU进行数据通信，单次传输数据量少但频率高，但是与USB3.0相比PCIE不适合小文件

2022-07-01 17:38:45

Arm Ethos-U NPU应用程序开发概述

Ethos-U NPU是一款小型高效处理器，用于减少推理时间以及运行机器学习（ML）神经网络（NN）所需的内存需求。Ethos-U NPU连接到Cortex® ‑M系列中央处理器（CPU），可以集成

2023-08-02 06:37:01

Arm®Ethos™-U65 NPU技术参考手册

通信并告诉它命令流所在的位置，并启动网络遍历。命令流描述NPU执行编译成命令流的操作符所需的步骤自主。完成后，NPU向驱动程序发出IRQ。驱动程序将命令流和其他有效负载的内存位置编程到寄存器中在NPU

2023-08-02 10:09:29

BananaPi BPI-M2S 是新设计的一款单板计算机，采用Amlogic A311D,NPU for AI 支持 5.0 TOPS算力,板载4G内存和16gb eMMC存储

G52 MP4(6EE) GPU,NPU for AI 支持 5.0 TOPS算力，支持摄像头和MIPI-CSI接口，HDMI输出，2个全千兆接口。板载4G内存和16gb eMMC存储

2021-09-30 12:41:58

CPU,GPU,TPU,NPU都是什么

嵌入式算法移植优化学习笔记5——CPU,GPU,TPU,NPU都是什么一、什么是CPU?二、什么是GPU?三、什么是TPU?四、什么是NPU?附：一、什么是CPU?中央处理器（CPU），是电子计算

2021-12-15 06:07:07

DSL应用中DSP与NPU集成的优势与劣势分析

考虑的主要因素。全球范围内的数字用户线(DSL)技术部署导致了复杂的硅集成问题。这些问题集中在如何将数字信号处理器(DSP)调制解调器(Modem)及网络处理器(NPU)芯片集成在数字用户线接入复用器

2008-09-18 10:22:01

Gowin NPU IP参考设计及用户指南

本次发布 Gowin NPU (Neural-network Processing Unit) IP 参考设计及用户指南。Gowin NPU IP 参考设计包括硬件参考设计和软件参考设计，可在高云

2022-09-30 07:12:35

RK3588（自带NPU）的环境搭建和体验相关资料分享

1、RK3588（自带NPU）的环境搭建和体验　　工具：i7-6700四核八线程、GTX960M显卡的渣渣笔记本（16G内存 + 512G固态+1T机械）、Ubuntu18.04（VMware虚拟机

2022-09-15 17:38:10

SoC如何查看内存使用情况

查看系统内存： free -h 查看ION内存 NPU内存使用情况： cat /sys/kernel/debug/ion/bm_npu_heap_dump/summary | head -2VPU

2023-09-19 07:23:11

TI模数芯片命名规则是什么？ADS8505与ADS8505IB有什么区别？

TI模数芯片命名规则是什么？ADS8505与ADS8505IB有什么区别？

2021-12-14 06:41:54

什么是内存

内存什么是内存？在计算机的组成结构中，有一个很重要的部分，就是存储器。存储器是用来存储程序和数据的部件，对于计算机来说，有了存储器才有记忆功能，才能保证正常工作。存储器的种类很多，按其用途可分为

2021-12-17 06:31:33

全志V853 NPU 系统介绍

与分配内存，然后将之前预处理的数据交给 NPU 进行计算。计算后 NPU 会输出一个 tensor 数据，这时候就需要数据后处理，将 tensor 数据转换为具体的坐标与类型，就可以反馈到上层应用程序做

2022-11-09 10:34:37

全志V853 NPU开发之工具安装

V853支持最高1T NPU算力，在进行NPU相关开发前，需要先配置NPU开发环境。 Linux系统准备NPU开发环境依赖于Linux系统，需要先准备 Linux 开发环境。经测试NPU 工具

2024-01-08 09:50:33

关于特斯拉自动驾驶FSD芯片NPU你想知道的都在这

关于特斯拉自动驾驶FSD芯片NPU你想知道的都在这

2021-06-17 06:41:29

内置NPU的Orange Pi 4B,你怎么看

工具、网络训练模型实例，可快速应用在智能家居、自动驾驶、机器人等边缘计算领域，为人工智能平台，提供算力支持。关于生态支持方面，Orange]但市场上已经有大量的瑞芯微 RK3399芯片的单板电脑，并且

2019-12-23 21:07:01

回收内存芯片，收购内存芯片

回收内存芯片，收购内存芯片，帝欧电子长期高价回收内存芯片，大量回收工厂呆滞料，帝欧专业回收内存芯片，深圳回收内存芯片就选帝欧电子！！！赵生：***QQ1816233102/879821252

2020-11-03 16:52:53

回收BGA内存芯片，收购BGA内存芯片

专业收购BGA内存芯片回收BGA内存芯片，收购BGA内存芯片。深圳帝欧电子专业电子回收，大量收购BGA内存芯片。帝欧赵生***QQ1816233102/879821252邮箱

2021-09-04 19:27:54

基于RKNN程序开发和模型转换的NPU简要说明

1. NPU开发简介1.1. 前言AIO-3399ProC 开发者需要注意：NPU推理阶段会与CPU进行数据通信，单次传输数据量少但频率高，但是与USB3.0相比PCIE不适合小文件传输。所以导致

2022-05-31 11:10:20

如何计算ADS1220的原码？

ADS1220给出的转换结果是补码形式，为了计算输入的模拟量大小，需要转换为原码。请教：知道补码，如何计算原码？如补码为0x80 0000h，原码如何计算？我的思路是：用原码转

2019-11-01 03:43:09

如何去使用RK3566内置NPU模块呢

NPU使用RK3566 内置 NPU 模块。使用该NPU需要下载RKNN SDK，RKNN SDK 为带有 NPU 的 RK3566/RK3568 芯片平台提供编程接口，能够帮助用户

2022-04-26 16:55:17

如何快速开发ADS1115芯片？

如何快速开发ADS1115芯片？

2022-01-21 07:31:46

如何调用RK3588的NPU资源？

如何调用RK3588的NPU资源，还有NPU资源使用上的注意点，有NPU调用资源的教程吗？

2022-05-16 09:41:42

如何选择内存芯片？

Gbit，也就是8GB　　内存芯片的选择除了计算其容量，数据位数等参数外，还的看其它的一些特性要求，比如控制处理器端支持什么内存技术（DDR，DDR2， DDR3？），内存芯片也要与之匹配。还有

2020-09-03 17:22:51

实时性计算能力带宽内存客户端需要计算什么

传输到后端？什么东西需要放到后端去计算？后端需要传输多少数据才能在客户端做可视化？准确性？效率？用多少内存和算力？实时性？计算平台CPUGPUDSPAI芯片相关岗位相关公司...

2021-12-23 07:22:14

探讨AI芯片设计和开发的6个挑战

AI实现的特点有哪些？AI芯片设计和开发面临哪些挑战？

2021-11-02 09:19:08

收购海力士内存芯片

收购海力士内存芯片长期回收海力士内存，专业回收海力士内存芯片，深圳帝欧赵生***QQ1816233102/879821252邮箱dealic@163.com。专业回收现代字库，回收海力士三星字库

2021-01-25 17:59:52

求购16位ad转换芯片 ADS115芯片

求购ADS115芯片，二手的优先，只要是贴片的就可以，电话 *** 梁生！

2014-01-10 21:23:01

深圳回收内存芯片优势收购内存芯片

【【内存芯片回收，实力高价回收!! 帝欧长年优势收购内存芯片！！ 135-3012-2202 （同步微信） QQ:879821252】大量收购内存芯片收购各个品牌内存芯片，收购东芝内存芯片

2021-08-20 16:33:07

矩形波导用EMPro计算如何在ADS中进行模拟？

我有一个矩形波导，用EMPro计算。如何在ADS中进行模拟？以上来自于谷歌翻译以下为原文I have a rectangular waveguide, calculated in EMPro. How to cosimulate in ADS?

2018-12-07 15:58:38

请问ADS7841的采样频率该怎么设置？怎么计算？

您好，我想问下，ADS7841这款芯片的采样频率的设置，是不是通过设置CS 高低电平的时间来计算，一个CS完整的高、低电平的时间和的倒数就是实际采样频率？我们今天进行芯片选型，我看其他的像

2019-06-06 09:26:46

请问ADS828中的输入值如何计算

在ADS828中有两个输入管脚IN+和IN-，当两个管脚的都接不同的输入的时候，输入值是如何计算的啊？是等于IN+的输入电压减去IN-的电压吗？

2019-02-28 13:32:45

请问NPU到底是什么？

目前手机市场中，AI已成为标配，但手机里的AI够不够聪明，还得看手机芯片里的NPU是否够强大。那么，NPU到底是什么呢?

2020-12-08 07:00:51

请问openCL并行计算的程序能运行在RK3399Pro的NPU上吗

请问openCL并行计算的程序能运行在RK3399Pro的NPU上吗？有哪位大神可以解答一下吗

2022-08-19 16:49:30

请问模数转换芯片ADS8505使用内部的2.5V参考电压好还是使用外部的？

1、是使用内部的2.5V参考电压好还是使用外部的？2、ADS8505手册的Figure 27 有个典型应用电路。OP放大器的输出接入ADS8505的输入。用的是反向放大器，计算下来并没有进行倍数放大

2019-03-05 13:41:56

恩智浦i.MX8M PLUS 2.3T NPU工业边缘计算机器学习与视觉应用

恩智浦i.MX8M PLUS 2.3T NPU工业边缘计算机器学习与视觉应用启扬智能IAC-IMX8MP-CM核心板基于NXP首款集成NPU的i.MX8MPLus处理器设计开发，处理器集成四个主频为

2022-07-29 11:55:28

ADS6145/ADS6144/ADS6143/ADS614

ADS6145/ADS6144/ADS6143/ADS6142 (ADS614X) are a family of 14-bit A/D converters with sampling

2010-06-04 10:29:19

ADS5525IRGZT：高性能模数转换器的技术之巅

ADS5525IRGZT：高性能模数转换器的技术之巅在数字信号处理的世界中，模数转换器（ADC）扮演着至关重要的角色。它们是将连续的模拟信号转换为离散的数字信号的关键组件。而ADS

2024-01-14 21:52:30

现代内存芯片的编号识别

现代内存芯片的编号识别一、现代(HYUNDAI)公司的SDRAM内存芯片上的标识格式如下（这里说的是2000年9月30日后的新版本HY内存芯片）:HY XX X XX X X&n

2008-09-04 13:00:04

2601

高精度AD采集芯片ADS7809的中文介绍

高精度AD采集芯片ADS7809的中文介绍 ADS7809是Burr-Brown公司推出的高精度AD采集芯片。它采用5V

2008-11-23 10:32:46

9058

内存芯片封装技术

内存芯片封装技术随着计算机芯片技术的不断发展和成熟，为了更好地与之相配合，内存产品也由后台走出，成为除CPU外的另一关注

2010-03-17 11:12:46

860

触摸屏控制芯片ADS7843中文文档

触摸屏控制芯片ADS7843中文文档不收积分，需要的看下

2015-11-23 18:16:35

异构计算芯片的机遇与挑战

异构计算的机遇与挑战异构计算是指不同类型的指令集和体系架构的计算单元组成的系统的计算方式，目前 CPU+GPU以及CPU+FPGA 都是最受业界关注的异构计算平台。它最大的优点是具有比传统CPU

2017-09-27 10:22:47

内存计算技术研究

有待解决的问题．首先，在分析内存计算技术特点的基础上对其进行了分类，并分别介绍了各类技术及系统的原理、研究现状及热点问题；其次，对内存计算的典型应用进行了分析：最后，从总体层面和应用层面对内存计算面临的挑战予以分

2018-01-12 14:12:37

ExynosAuto将成为首款内置NPU模块的三星芯片

ExynosAuto将成为首款内置NPU模块的三星芯片。NPU在汽车上可用于分析车内图像传感器接收到的图像信号。因此，它能够帮助构建更高效的ADAS（高级驾驶员辅助系统），ADAS可用来识别车道

2018-05-30 10:30:00

1430

阿里苦心研发Ali-NPU，AI芯片哪种跟具优势

阿里巴巴达摩院正在研发一款神经网络芯片——Ali-NPU，主要运用于图像视频分析、机器学习等AI推理计算。

2018-04-23 17:57:10

7617

阿里苦心研发NPU AI芯片究竟哪款PU更厉害？

有消息称，阿里巴巴达摩院正在研发一款神经网络芯片——Ali-NPU，主要运用于图像视频分析、机器学习等AI推理计算。按照设计，这款芯片性能将是目前市面上主流CPU、GPU架构AI芯片的10倍，而制造成本和功耗仅为一半，其性价比超过40倍。

2018-05-30 02:03:00

4238

ADS7863A的介绍和对比ADS7863的变化和ADS7863A的应用概述

该应用说明介绍了ADS7863A，双，12位，2X2或3X3通道，同时采样模数转换器（ADC）。ADS7863A是ADS7863的更新版本，在数字接口到芯片上具有更高的灵活性。本应用笔记比较和对比了ADS7863的变化，并提供了一些应用技巧和技巧来成功地实现新的或现有的设计中的ADS7863A。

2018-05-29 08:51:31

ADS快速入门：关于ADS的环境介绍

ADS快速入門(ADS Overview)--環境介紹(Environment)---ADS简介

2018-07-06 01:19:00

7414

内存计算技术是什么为什么能显著提高芯片性能

近日，美国普林斯顿大学研究人员推出了一款新型计算机芯片，其运行速度是传统芯片的百倍。有媒体称其采用了“内存计算”技术，使计算效率得到大幅提升。

2019-03-21 16:48:56

10908

这款芯片在计算时也能存储

AI 对算力提出了更高的要求，传统的芯片面临挑战，不过在量子计算和类脑计算获得长足发展之前，芯片算力的提升依旧依靠现有技术的提升和创新。

2019-12-11 16:07:33

2957

芯片里的CPU、GPU、NPU是什么，它们是如何工作的

众所周知，随着智能手机的流行，越来越多的人都知道了手机芯片的相关知识，更是知道了CPU、GPU、NPU等等“深奥”的知识点。

2020-03-25 14:21:04

15841

ARM被收购后还将继续开发Mali GPU及NPU芯片?

在日前的ARM DevSummit开发者峰会上，NVIDIA创始人、CEO黄仁勋也回应了这个说法，他表示ARM被收购之后还会继续开发Mali GPU及NPU芯片，NVIDIA不会阻止，两边都有各自的客户。

2020-10-11 11:57:35

2199

计算内存与非计算内存有什么区别？

通俗的说法：凡是硬盘上有对应的数据，占用的内存，就是非计算内存，非计算内存需要被别的进程用到时，其中的数据无需page out，因为再次需要读取的时候从硬盘文件中拿出来即可。凡是硬盘上没有

2020-11-04 11:38:51

1981

以NPU为首的AI芯片们，还有很长的路要走

作为AI芯片的典型，目前华为、苹果等厂商都开始在NPU上发力。除此以外，开发者也在努力推进着手机端AI应用的发展。 NPU（Neural Processing Unit，神经网络处理器），一直都

2020-11-06 14:21:32

3087

npu处理器有什么用

NPU是一种专门应用于网络应用数据包的处理器，采用了“数据驱动并行计算“的架构，可以用来处理视频、图像类的海量多媒体数据。

2020-12-04 14:33:44

10995

OPPO带来首个影像专用NPU芯片马里亚纳 MariSilicon X

12月，OPPO未来科技大会上，OPPO带来了自家首个影像专用NPU芯片马里亚纳 MariSilicon X。该芯片基于DSA架构和台积电先进6nm工艺制造，通过AI算力与算法的结合，在高分辨、高色数无损成像、AI算法和HDR动态范围等方面，将手机计算影像的表现推上了一个新的台阶。

2021-12-25 14:44:03

2231

边缘计算需要什么样的板卡？NPU算力如何呢

，NPU的性能也更受到注重，也作为了CPU与GPU外的下一个性能指标。本文介绍的是米尔于2021年底发布的新品——MYC-JX8MPQ核心板，作为AI领域的里程碑CPU模组，它基于NXP第一颗搭载了NPU的高端芯片i.MX 8M Plus，这个模组主要面向AI场景，具有2.3 TOP

2022-07-05 15:43:14

1222

Edge AI 挑战内存技术

随着边缘人工智能的兴起，对存储系统提出了一系列新要求。当今的内存技术能否满足这一具有挑战性的新应用的严格要求，新兴内存技术对边缘 AI 的长期承诺是什么？首先要意识到的是，没有标准的“边缘人

2022-07-19 17:30:19

987

如何提升NPU的能效比？

NPU通过数据分区和有效调度，利用数据的重用以及执行分段来提高能效比和硬件利用率，而实现高利用率，数据重用将直接依赖于如何调度深度神经网络的计算和如何将这些计算有效的映射到NPU的硬件单元上。以CNN为例，数据流无非包含三个方面filter(Weight)，ifmap和ofmap，如下图。

2022-08-01 11:19:54

1651

自研矩阵再添新军！安谋科技发布新一代“周易”X2 NPU

、灵活性等方面进行了大幅提升，还针对车载、边缘计算等应用场景进行了专门优化，为新兴领域不断迭代的计算需求提供更为完善的解决方案。随着“周易”X2 NPU的推出，安谋科技正式发布“周易”NPU软件开源计划，通过开放源码，满足客户更自主、更灵活的算法移植

2023-03-28 15:08:18

447

本土NPU IP再升级！高达320TOPS算力，引领边缘计算与汽车浪潮

2023年3月28日，安谋科技（中国）有限公司正式发布自研新一代人工智能处理器“周易”X2 NPU。周易NPU是安谋的一个IP系列，此前发布的“周易”X1 NPU产品主要是基于的V1、V2架构，更多

2023-04-03 10:02:00

3030

什么是npu算力盒子，算力是越大越好吗？

NPU（神经处理单元）算力盒子是一种专门用于进行人工智能计算的硬件设备，其中集成了高性能的NPU芯片。NPU是一种针对深度学习任务进行优化的处理器，具备高度并行计算和低功耗的特性，能够快速高效地执行神经网络模型的推理和训练任务。

2023-05-17 13:40:48

999

边缘计算需要什么样的板卡？NPU算力如何

自从物联网(IoT)出现以来，边缘智能颇具颠覆性的创新，以及边缘计算应用都逐渐变得非常普遍，例如人脸识别，语音识别，物体识别，或者汽车上用的车辆识别系统都有它的身影。当然，这对算力的要求逐渐提高

2022-07-02 14:39:51

978

BananaPi BPI-M2S 采用Amlogic A311D开发的AI开发板,NPU AI 支持 5.0 TOPS算力,

BananaPi BPI-M2S 是香蕉派开源社区新设计的一款单板计算机，采用Amlogic A311D,NPU for AI 支持 5.0 TOPS算力,板载4G内存和16gb eMMC存储

2022-08-22 16:00:32

580

npu是什么意思?npu芯片是什么意思？npu到底有什么用？

npu是什么意思?npu芯片是什么意思？npu到底有什么用？ NPU的概念 NPU（Neural Processing Unit，神经网络处理器）是一种专门用于处理人工神经网络计算的计算机微处理器

2023-08-27 17:03:05

18880

cpu gpu npu的区别 NPU与GPU哪个好？gpu是什么意思？

(CPU)、Graphics Processing Unit(GPU)和Neural Processing Unit(NPU)等处理器和芯片被广泛应用于各种领域。这些处理器和芯片在计算能力、功耗、功能

2023-08-27 17:03:08

6665

npu是什么处理器？NPU卡是什么？

npu是什么处理器？NPU卡是什么？ NPU是指“神经网络处理器”（Neural Processing Unit），是一种专用的芯片，用于处理大规模神经网络计算。神经网络是一种基于模拟人类神经系统

2023-08-27 17:03:11

3915

npu运行需要cpu协助吗

人工智能任务的处理器。相较于传统的CPU，NPU能够更加高效地进行矩阵运算、神经网络的运算等涉及向量空间的处理。NPU的出现，使得人工智能任务可以在专用的处理单元上进行，并且能够通过其高性能和高能效性，进一步加速人工智能的应用。NPU在现代的移动设备、云计算中得到了广泛的

2023-08-27 17:03:13

575

npu是华为独有的吗？手机有npu和没有npu的区别？

进行人工神经网络计算的处理器。NPU可以加速AI算法的运行速度，提高手机对语音、图像、视频等多种应用场景的处理能力，让手机更加智能化。目前，华为Mate 10、华为P20、华为P30等手机都搭载了NPU芯片。以华为P30为例，其NPU芯片采用的是麒麟980处理器，它被称为华为最强处理器，主要是

2023-08-27 17:03:16

2190