0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪历代深度学习处理器的各种参数信息

倩倩 来源:我是天边飘过一朵云 2020-04-17 09:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

寒武纪神经网络处理器是中科院计算技术研究所发布的能运行深度神经网络实现人工智能算法的处理器硬件架构,下面是小编整理的寒武纪历代深度学习处理器的各种参数信息,大家不妨来看看。

1. 寒武纪1号:DianNao

陈天石等人提出的DianNao是寒武纪系列的第一个原型处理器结构,包含一个处理器核,主频为0.98GHz,峰值性能达每秒4520亿次神经网络基本运算(如加法、乘法等),65mm工艺下功耗为0.485W,面积3.02平方毫米。在若干代表性神经网络上的实验结果表明,DianNao的平均性能超过主流CPU核的100倍,面积和功耗仅为CPU核的1/30~1/5,效能提升达三个数量级;DianNao的平均性能与主流通用图形处理器(NVIDIA K20M)相当,但面积和功耗仅为后者的百分之一量级。

DianNao要解决的核心问题是如何使有限的内存带宽满足运算功能部件的需求,使运算和访存之间达到平衡,从而实现高效能比。其难点在于选取运算功能部件的数量、组织策略以及片上随机存储器(RAM)的结构参数。由于整个结构参数空间有上千万种选择,而模拟器运行速度不及真实芯片的十万分之一,我们不可能蛮力尝试各种可能的设计参数。为解决此问题,提出了一套基于机器学习的处理器性能建模方法,并基于该模型最终为DianNao选定了各项设计参数,在运算和访存间实现了平衡,显著提升了执行神经网络算法时的效能。

即使数据已经从内存移到了片上,搬运的能耗依然非常高。英伟达公司首席科学家史蒂夫·凯科勒(Steve Keckler)曾经出,在40m工艺下,将64位数据搬运20毫米的能耗是做64位浮点乘法的数倍。因此,要降低处理器功耗,仅仅降低运算功耗是不够的,必须对片上数据搬运进行优化。我们提出了对神经网络进行分块处理,将不同类型的数据块存放在不同的片上随机存储器中,并建立理论模型来刻画随机存储器与随机存储器、随机存储器与运算部件、随机存储器与内存之间的搬运次数,进而优化神经网络运算所需的数据搬运次数。相对于CPU/GPU上基于缓存层次的数据搬运,DianNao可将数据搬运次数减少至前者的1/30~1/10。

2. 寒武纪2号:DaDianNao

近年来兴起的深度神经网络在模式识别领域取得了很好的应用效果,但这类神经网络的隐层数量和突触数量远多于传统神经网络。例如,著名的谷歌大脑包括了100多亿个突触。百度采用的大规模深度学习神经网络包含200多亿个突触。急剧增长的神经网络规模给神经网络处理器带来了挑战。单个核已经难以满足不断增长的应用需求。将神经网络处理器扩展至多核成为自然之选。DaDianNao在DianNao的基础上进一步扩大了处理器的规模,包含16个处理器核和更大的片上存储,并支持多处理器芯片间直接高速互连,避免了高昂的内存访问开销。在28nm工艺下,DaDianNao的主频为606MHz,面积67.7平方毫米,功耗约16W。单芯片性能超过了主流GPU的21倍,而能耗仅为主流GPU的1/330。64芯片组成的计算系统的性能较主流GPU提升450倍,但总能耗仅为后者的1/150。

3. 寒武纪3号:PuDianNao

神经网络已成为模式识别等领域的主流算法,但用户很多时候可能更倾向于使用其他一些经典的机器学习算法。例如程序化交易中经常使用线性回归这类可解释性好、复杂度低的算法。在此背景下,我们研发了寒武纪3号多用途机器学习处理器---PuDianNao,可支持k-最近邻、k-均值、朴素贝叶斯、线性回归、支持向量机、决策树、神经网络等近10种代表性机器学习算法。在65nm工艺下,PuDianNao的主频为1GHz,峰值性能达每秒10560亿次基本操作,面积3.51平方毫米,功耗为0.596W。PuDianNao运行上述机器学习算法吋的平均性能与主流通用图形处理器相当,但面积和功耗仅为后者的百分之一量级。PuDianNao的结构设计主要有两个难点:运算单元设计和存储层次设计,分别对应于机器学习的运算特征和结构特征。其中运算单元设计的出发点是高效实现机器学习最频繁的运算操作,而存储层次设计则主要根据访存特征提高各机器学习算法中数据的片内重用,降低片外访存带宽的需求,充分发挥运算单元的计算能力,避免片外访存成为性能瓶颈。在运算单元设计方面,提出了一种机器学习运算单元(Machine Learning Unit, MLU)来支持各种机器学习方法中共有的核心运算,包括:点积(线性回归、支持向量机、神经网络)、距离计算(k-最近邻、k-均值)计数(决策树和朴素贝叶斯)、排序(k-最近邻、k-均值)和非线性函数计算(支持向量机和神经网络)等。机器学习运算单元被分成了计数器、加法器、乘法器、加法树、Acc和Misc6个流水线阶段。

在存储层次设计方面,设计了HotBuf(HB)、ColdBuf(CB)和OutputBuf(OB)3个片上数据缓存HotBuf存储输入数据,具有最短重用距离的数据。ColdBuf存放相对较长重用距离的输入数据。OutputBuf存储输出数据或者临时结果。这样设计的原因有两个:第一,在各种机器学习算法中,数据的重用距离通常可以分为两类或三类,因此设计了3个片上数据缓存;第二,机器学习算法中不同类型的数据读取宽度不同,因此设置了分开的缓存来降低不同的宽度带来的开销。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108326
  • 算法
    +关注

    关注

    23

    文章

    4816

    浏览量

    98744
  • 寒武纪
    +关注

    关注

    13

    文章

    222

    浏览量

    75097
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寒武纪Day 0适配商汤科技日日新SenseNova U1系列大模型

    近日,在商汤科技发布日日新 SenseNova U1 系列原生理解生成统一模型当日,寒武纪已完成对 SenseNova U1 的适配。
    的头像 发表于 05-07 12:38 414次阅读

    业绩大爆发!寒武纪Q1财报发布,国产AI芯片的历史性拐点?

    电子发烧友网综合报道  4月29日晚间,寒武纪发布2026 年一季度财报,业绩迎来历史性爆发——寒武纪发布公告称,2026年第一季度实现营业收入28.85亿元,同比增长159.56%;归属于上市公司
    的头像 发表于 05-06 09:14 2067次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day 0 适配,适配
    的头像 发表于 04-29 10:14 452次阅读

    寒武纪2025年报解读:AI芯片的机遇与隐忧 营收64.97亿,同比暴涨453.21%

    寒武纪此前发布的年报数据显示,在2025年寒武纪营业收入达到64.97亿元,同比增长453.21%。寒武纪在年报中表示,报告期内业绩增长,主要系受益于人工智能行业算力需求的持续攀升,凭借产品的优异
    的头像 发表于 04-22 11:49 1692次阅读

    深入剖析STA2065:高性能信息娱乐应用处理器

    深入剖析STA2065:高性能信息娱乐应用处理器 在电子设备飞速发展的今天,一款优秀的应用处理器对于实现各种复杂功能起着至关重要的作用。今天,我们就来深入了解一下意法半导体(ST)推出
    的头像 发表于 04-16 14:05 172次阅读

    深度解析ADSP - TS101S TigerSHARC嵌入式处理器

    深度解析ADSP - TS101S TigerSHARC嵌入式处理器 在当今的电子科技领域,高性能数字信号处理器(DSP)对于处理复杂的信号和通信任务至关重要。ADSP - TS101
    的头像 发表于 03-24 09:20 231次阅读

    寒武纪去年营收增长超400% 净利润20.59亿同比扭亏 寒武纪首个盈利年度

    AI芯片厂商寒武纪传来好消息,寒武纪去年营收增长超400% ;据寒武纪2025年年报显示;25年营收达到64.97亿元,同比增加453.21%,净利润20.59亿元,同比扭亏。该公司迎来上市以来首个
    的头像 发表于 03-13 11:49 1777次阅读

    寒武纪实现对GLM-5的Day 0适配

    2026年2月11日,寒武纪已基于 vLLM 推理框架同步实现对智谱最新开源旗舰模型  GLM-5 的适配。寒武纪一直高度重视大模型软件生态建设,借助于成熟的自研 Neuware 软件生态和长期
    的头像 发表于 02-12 15:07 1017次阅读

    寒武纪引领AI芯片软件新生态

    寒武纪成立的初衷是为“人工智能的大爆发”提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整
    的头像 发表于 11-06 11:23 1690次阅读
    <b class='flag-5'>寒武纪</b>引领AI芯片软件新生态

    商汤科技与寒武纪达成战略合作

    近日,商汤科技与中科寒武纪科技股份有限公司(以下简称“寒武纪”)签署面向新发展阶段的战略合作协议,重点推进软硬件的联合优化,并共同构建开放共赢的产业生态。
    的头像 发表于 10-15 17:54 967次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源代码。代码地址和测试步骤见文末,开发者可以在寒武纪软硬件平台上第一时间体验DeepSee
    的头像 发表于 10-11 17:14 1985次阅读
    <b class='flag-5'>寒武纪</b>成功适配DeepSeek-V3.2-Exp模型

    寒武纪股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    算力市占率均居第一,这家公司自研的MLU架构与软件栈深度耦合,奠定了国产替代核心底座,被视作挑战英伟达的唯一本土力量。 除了寒武纪之外,海光信息、中芯国际、盛美上海这些半导体个股今天也出现了不同程度的大幅度上涨。以最终收盘的股价
    的头像 发表于 08-26 13:54 1256次阅读
    <b class='flag-5'>寒武纪</b>股价破1200大关创历史新高 DeepSeek适配国产芯片成直接原因

    寒武纪85后创始人陈天石身价超1500亿

    在3月份胡润研究院发布的《2025胡润全球富豪榜》上,寒武纪创始人陈天石以870亿元人民币身家位列第195位。现在在资本的追逐下,寒武纪85后创始人陈天石身价超1500亿。 近日,在英伟达暂停H20
    的头像 发表于 08-26 10:37 7231次阅读

    德州仪器AM62Ax Sitara™处理器技术解析

    Texas Instruments AM62A/AM62A-Q1基于ARM ^®^ 的处理器是车规级异构ARM处理器系列的一部分。这些处理器包括嵌入式深度
    的头像 发表于 08-13 10:25 2043次阅读
    德州仪器AM62Ax Sitara™<b class='flag-5'>处理器</b>技术解析

    寒武纪联手阶跃星辰成立模芯生态创新联盟

    近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者开源。目前,寒武纪已初步实现对Step 3的支持。
    的头像 发表于 07-31 11:26 1367次阅读