寒武纪历代深度学习处理器的各种参数信息-电子发烧友网

寒武纪神经网络处理器是中科院计算技术研究所发布的能运行深度神经网络实现人工智能算法的处理器硬件架构，下面是小编整理的寒武纪历代深度学习处理器的各种参数信息，大家不妨来看看。

1. 寒武纪1号：DianNao

陈天石等人提出的DianNao是寒武纪系列的第一个原型处理器结构，包含一个处理器核，主频为0.98GHz，峰值性能达每秒4520亿次神经网络基本运算（如加法、乘法等），65mm工艺下功耗为0.485W，面积3.02平方毫米。在若干代表性神经网络上的实验结果表明，DianNao的平均性能超过主流CPU核的100倍，面积和功耗仅为CPU核的1/30~1/5，效能提升达三个数量级；DianNao的平均性能与主流通用图形处理器（NVIDIA K20M）相当，但面积和功耗仅为后者的百分之一量级。

DianNao要解决的核心问题是如何使有限的内存带宽满足运算功能部件的需求，使运算和访存之间达到平衡，从而实现高效能比。其难点在于选取运算功能部件的数量、组织策略以及片上随机存储器（RAM）的结构参数。由于整个结构参数空间有上千万种选择，而模拟器运行速度不及真实芯片的十万分之一，我们不可能蛮力尝试各种可能的设计参数。为解决此问题，提出了一套基于机器学习的处理器性能建模方法，并基于该模型最终为DianNao选定了各项设计参数，在运算和访存间实现了平衡，显著提升了执行神经网络算法时的效能。

即使数据已经从内存移到了片上，搬运的能耗依然非常高。英伟达公司首席科学家史蒂夫·凯科勒（Steve Keckler）曾经出，在40m工艺下，将64位数据搬运20毫米的能耗是做64位浮点乘法的数倍。因此，要降低处理器功耗，仅仅降低运算功耗是不够的，必须对片上数据搬运进行优化。我们提出了对神经网络进行分块处理，将不同类型的数据块存放在不同的片上随机存储器中，并建立理论模型来刻画随机存储器与随机存储器、随机存储器与运算部件、随机存储器与内存之间的搬运次数，进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于缓存层次的数据搬运，DianNao可将数据搬运次数减少至前者的1/30~1/10。

2. 寒武纪2号：DaDianNao

近年来兴起的深度神经网络在模式识别领域取得了很好的应用效果，但这类神经网络的隐层数量和突触数量远多于传统神经网络。例如，著名的谷歌大脑包括了100多亿个突触。百度采用的大规模深度学习神经网络包含200多亿个突触。急剧增长的神经网络规模给神经网络处理器带来了挑战。单个核已经难以满足不断增长的应用需求。将神经网络处理器扩展至多核成为自然之选。DaDianNao在DianNao的基础上进一步扩大了处理器的规模，包含16个处理器核和更大的片上存储，并支持多处理器芯片间直接高速互连，避免了高昂的内存访问开销。在28nm工艺下，DaDianNao的主频为606MHz，面积67.7平方毫米，功耗约16W。单芯片性能超过了主流GPU的21倍，而能耗仅为主流GPU的1/330。64芯片组成的计算系统的性能较主流GPU提升450倍，但总能耗仅为后者的1/150。

3. 寒武纪3号：PuDianNao

神经网络已成为模式识别等领域的主流算法，但用户很多时候可能更倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下，我们研发了寒武纪3号多用途机器学习处理器---PuDianNao，可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近10种代表性机器学习算法。在65nm工艺下，PuDianNao的主频为1GHz，峰值性能达每秒10560亿次基本操作，面积3.51平方毫米，功耗为0.596W。PuDianNao运行上述机器学习算法吋的平均性能与主流通用图形处理器相当，但面积和功耗仅为后者的百分之一量级。PuDianNao的结构设计主要有两个难点：运算单元设计和存储层次设计，分别对应于机器学习的运算特征和结构特征。其中运算单元设计的出发点是高效实现机器学习最频繁的运算操作，而存储层次设计则主要根据访存特征提高各机器学习算法中数据的片内重用，降低片外访存带宽的需求，充分发挥运算单元的计算能力，避免片外访存成为性能瓶颈。在运算单元设计方面，提出了一种机器学习运算单元（Machine Learning Unit， MLU）来支持各种机器学习方法中共有的核心运算，包括：点积（线性回归、支持向量机、神经网络）、距离计算（k-最近邻、k-均值）计数（决策树和朴素贝叶斯）、排序（k-最近邻、k-均值）和非线性函数计算（支持向量机和神经网络）等。机器学习运算单元被分成了计数器、加法器、乘法器、加法树、Acc和Misc6个流水线阶段。

在存储层次设计方面，设计了HotBuf（HB）、ColdBuf（CB）和OutputBuf（OB）3个片上数据缓存HotBuf存储输入数据，具有最短重用距离的数据。ColdBuf存放相对较长重用距离的输入数据。OutputBuf存储输出数据或者临时结果。这样设计的原因有两个：第一，在各种机器学习算法中，数据的重用距离通常可以分为两类或三类，因此设计了3个片上数据缓存；第二，机器学习算法中不同类型的数据读取宽度不同，因此设置了分开的缓存来降低不同的宽度带来的开销。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4773

浏览量
100874
算法

算法

+关注

关注
23

文章
4616

浏览量
93027
寒武纪

寒武纪

+关注

关注
11

文章
186

浏览量
73909

NPU与传统处理器的区别是什么

和GPU相比，NPU在处理深度学习任务时展现出了显著的优势。 1. 设计目的传统处理器： CPU（中央处理单元）： CPU是通用

发表于 11-15 09:29 •442次阅读

NPU在深度学习中的应用

设计的硬件加速器，它在深度学习中的应用日益广泛。 1. NPU的基本概念 NPU是一种专门针对深度学习算法优化的

发表于 11-14 15:17 •661次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是

发表于 10-27 11:13 •414次阅读

深度学习GPU加速效果如何

图形处理器（GPU）凭借其强大的并行计算能力，成为加速深度学习任务的理想选择。

发表于 10-17 10:07 •205次阅读

FPGA做深度学习能走多远？

并行计算的能力，可以在硬件层面并行处理大量数据。这种并行处理能力使得 FPGA 在执行深度学习算法时速度远超传统处理器，能够提供更低的延迟和

发表于 09-27 20:53

算力概念股寒武纪20cm涨停市值重回千亿

7月16日整个算力概念板块上涨；寒武纪（688256）上涨达20%，股价创年内新高，成交额超42亿，寒武纪的总市值重回千亿大关。此外，紫光股份（000938）、海光信息（688041）等概念股同步

发表于 07-17 15:30 •617次阅读

细数各种音频处理器

HiFi音频系统需要具备高质量的音频处理器，以保证音频信号在处理和传输过程中能够尽可能地保持原始音质和细节。每种处理器的选择和配置应根据具体的音频设备、使用场景和个人偏好来进行优化和调整。这些

发表于 07-10 16:36 •1095次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习模型进行优化与调试是确保其性能优越的

发表于 07-01 11:41 •858次阅读

处理器的定义和种类

处理器，作为计算机系统的核心部件，承载着执行指令、处理数据的重要任务。随着信息技术的飞速发展，处理器的种类和性能也在不断提升。本文将对处理器

发表于 05-12 18:12 •2647次阅读

嵌入式微处理器有哪几类嵌入式微处理器包含哪些重要参数

嵌入式微处理器是指特别设计用于嵌入式系统的微处理器，它具有小型化、低功耗、高性能和多功能等特点。嵌入式微处理器广泛应用于各种电子设备中，例如智能手机、平板电脑、数字相机、汽车电子、医疗

发表于 05-04 14:58 •928次阅读

寒武纪2023年报出炉：营收稳健亏损收窄毛利率达69.16%

年报信息显示，寒武纪全年实现收入7.09亿元人民币，其中毛利率达到69.16％，比去年提高了3.40个百分点。在经历过上年度寛泛亏损之后，本年度盈利情况明显改善，向股东返还利润407913000元，降幅达32.47％。

发表于 04-30 09:39 •853次阅读

华为pockets是什么处理器

华为Pockets的处理器型号是高通骁龙778G 4G SoC。这款处理器可以提供出色的性能，满足用户的各种需求，同时支持快速的应用程序响应和流畅的操作体验。

发表于 03-05 17:16 •1480次阅读

“AI芯片第一股”寒武纪发布2023年度业绩快报亏8.36亿元！

“AI芯片第一股”寒武纪（688256）在2024年2月28日发布2023年度业绩快报。

发表于 03-04 13:41 •907次阅读

寒武纪与智象未来联手，推动视觉大模型的技术创新与应用

在大模型领域，寒武纪自底层硬件架构至基础软件更新，皆针对大模型的实际应用场景进行了细致优化。依托高效的推理引擎MagicMind，寒武纪思元（MLU）系列云端智能加速卡支持输入输出变换、提升算子效率以及图融合等尖端技术，全力赋能智象未来大模型的应用部署。

发表于 01-24 09:59 •903次阅读

寒武纪与智象未来达成战略合作并完成大模型适配

1月22日，寒武纪与智象未来 (HiDream.ai) 在北京签订战略合作协议，双方将通过资源共享、优势互补，依托各自在大模型领域的技术积累，持续产品适配，携手推动视觉大模型的创新与落地。

发表于 01-23 13:46 •576次阅读

搜索历史

寒武纪历代深度学习处理器的各种参数信息

评论

NPU与传统处理器的区别是什么

NPU在深度学习中的应用

GPU深度学习应用案例

深度学习GPU加速效果如何

FPGA做深度学习能走多远？

算力概念股寒武纪20cm涨停市值重回千亿

细数各种音频处理器

深度学习的模型优化与调试方法

处理器的定义和种类

嵌入式微处理器有哪几类嵌入式微处理器包含哪些重要参数

寒武纪2023年报出炉：营收稳健亏损收窄毛利率达69.16%

华为pockets是什么处理器

“AI芯片第一股”寒武纪发布2023年度业绩快报亏8.36亿元！

寒武纪与智象未来联手，推动视觉大模型的技术创新与应用

寒武纪与智象未来达成战略合作并完成大模型适配