0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

本土NPU IP再升级!高达320TOPS算力,引领边缘计算与汽车浪潮

21克888 来源:电子发烧友网 作者:黄晶晶 2023-04-03 10:02 次阅读

2023年3月28日,安谋科技(中国)有限公司正式发布自研新一代人工智能处理器“周易”X2 NPU。周易NPU是安谋的一个IP系列,此前发布的“周易”X1 NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,此次发布的“周易”X2 NPU是安谋科技第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。还针对车载、边缘计算等应用场景进行了专门优化,为新兴领域不断迭代的计算需求提供更为完善的解决方案。

“周易”X2 NPU性能全面升级


“周易”X2 NPU作为新一代人工智能处理器,采用第三代“周易”架构,支持多核Cluster,最高可达320TOPS子系统。

安谋科技产品总监杨磊介绍,相比于“周易”X1和“周易”Z系列都是单核NPU的解决方案,“周易”X2有一个集群(Cluster)的概念,拥有多个NPU的核,算力得到成倍的提升。Cluster内部有总线的互联,用于数据的沟通和维护,也有内部的存储系统,协调不同核间的数据通信。同时还支持多个Cluster,整个算力可以成倍提升。通过多核构成Cluster,多个Cluster构成一个子系统的方案来完成大算力的产品形态的交付。

“周易”X2 NPU主要功能升级


杨磊进一步分析,这里面有一个很核心的功能,就是任务调度器Task Scheduling Manager,简称为TSM,它可以同时调度多个Cluster的多个核心。举例来说,当车有10个摄像头,有10路数据进来,可以每一路都跑一个检测算法,它可以当成是10个任务,假设只有4个核心,通过调度器发现哪个核是空闲的,就可以把任务立刻调度给那个核心做计算,因此它完全是动态、实时的调度的解决方案。实时的硬件任务管理使得“周易”X2 NPU可实现最高千万次/秒的任务调度,将各个计算单元的效能发挥到最佳。

一般来说,数据要从片外的存储设备中来读取,这个传输通道在物理上有限制,其次通道速度越快整个方案的成本也会越高,而i-Tiling的技术方案节省带宽需求,进一步提升计算效率,从而大幅降低系统的成本。同时,还增加了无损权重压缩技术,进一步节省带宽。以汽车应用上处理一个4K分辨率的单路图像为例,去噪声计算需要40GB带宽,基于i-Tiling技术,能够大幅压缩带宽。它是把一个很大的图片拆成若干个小块,这样每一个tile就变得很小,而memory缓存在芯片内部,不需要把数据放到外部设备做读写操作,从而节省对外部带宽的需求。

此前,“周易”Z系列,包括“周易”X1的处理都是基于定点的方案,也就是int8整型方案来做的NPU,它的好处是兼顾了计算性能和密度和芯片成本。在汽车领域对于计算的精度要求更高,“周易”X2 NPU支持混合精度计算,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,既可以是定点的计算、整型的数据计算,也支持浮点的16bit或者是32bit的计算,计算效率与计算密度得到显著提升。
“周易”X2 NPU优化了Transformer性能。如今汽车领域大量地采用Transformer结构,Transformer是一个在汽车领域很常见的AI模型,有基于图像、基于分割检测的模型。

此外,在低功耗领域做了很多的技术升级,在7nm工艺节点上做到10TOP/W的能效。面向手机、平板电脑、PC等市场可以提供30T算力,这个算力基本上可以对标现在业界旗舰手机的NPU的解决方案。针对手持设备做了专门的优化,比如说拍照的AI去噪声,视频超分辨率、插帧等。总之整个“周易”X2产品有大量的技术升级,满足面向汽车以及手持设备的产品的需求。

在灵活性方面,“周易”X2 NPU在支持自定义算子、满足各种模型部署需求的基础上,还面向各类应用场景提供定制化AI解决方案,以进一步满足客户在智能驾驶、手机影像AI处理、人机交互等场景中的差异化需求。
为帮助开发者更方便、快速地进行算法移植和调试,“周易”X2 NPU还提供了一套完善的人工智能软件平台,可以更好地满足开发者对性能调优、系统部署的需求。目前,“周易”X2 NPU已面向客户正式交付,并且今年会有多款搭载“周易”X2 NPU的芯片产品面世。

V3架构突破,与完整的“周易” Compass软件平台


安谋科技NPU研发高级总监孙锦鸿Ryan解析,在“周易”X2 NPU中,一个核分成两个大的计算部件,一个是可编程的、灵活的单元,采用VLIW结构,它是通用向量处理单元。另外,我们还专门为Tensor处理做了不同种类算子加速单元,跟灵活单元有机结合成为一个可扩展性的核结构。扩展性层面,在一个Cluster里扩展,通过高带宽的内部NoC,以及一些Debug单元、电源管理单元、内部memory构成一个计算Cluster,再通过Task Scheduling Manager,将计算任务调度到合适的核,或者合适的Cluster里。“周易”架构能做到高效能AI固定运算和灵活编程要求的有效平衡。



孙锦鸿表示,对比起“周易”v1、v2架构,v3架构更强调并行性和可扩展性。整个“周易”NPU的设计核心思想在指令、数据处理单元的同构计算里做到了最大并行。在整个v3架构的指令集中,安谋科技定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。



孙锦鸿分析,在运算单元里,需要很多AI固定功能的加速,我们提供了高效的4K MAC矩阵,适用于CNN、RNN、Transformer等结构。其次提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新是日新月异,这些可重置的结构单元就给我们的NPU提供了很多的可扩展性和适应性。
灵活单元层面,我们就做了很多针对AI标量、矢量的指令,这些指令都可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit做到较为有效的拓展。也加入支持矩阵浮点运算。

“周易”NPU不仅提供硬件NPU IP,还提供一整套完整的“周易” Compass软件平台,这个平台中包括模型编译器、调试器,不仅可以分析和判断运行中是否有一些异常和错误,还可以调试性能。



孙锦鸿表示,基于V3架构,安谋科技开发了很多底层软件、中间部件,包括runtime、IDE、simulator等等都整合到“周易” Compass软件平台里。也开发了很多高效能的NN算子,供客户直接调用。还开发了专门的NN compiler,整合i-Tiling的技术。此外,提供一个友好的OpenCL的Compiler,通过单次编程就可以把这么多运算单元整合起来。在顶层上,我们也有统一的Parser对接到各种神经网络框架。此外,还有一个核心部件是量化部件,可以把各种浮点的原始模型量化到合适精度,给NPU最高效的运行。我们也定义了一套名为Compass IR的公开标准接口,将IR直接对接到上层神经网络或底层硬件。并且这一部分设计已经实现了开源。


“周易” Compass软件平台现在已经支持了上百种AI算子或者是AI层,支持上百种AI模型,希望通过这样一套“周易” Compass软件平台来支持全部的软件模型,因为整个“周易”NPU具有完全可编程性,客户可以开发新的算子。“尤其是在汽车领域,无论是模型、数据,对客户来讲都是核心资产,它的算法中就采用了很多自定义算子,也就是非标准算子,这些算子都能体现出车厂、自动驾驶厂商的特有技术或方案。这种情况下,我们就可以支持这些客户进行自定义算子的部署。”孙锦鸿说道。


同时,“周易” Compass软件平台不单可以把NPU的性能充分发挥出来,还结合通用的Arm CPU处理器,GPU IP单元,以及ISP、VPU、SPU等提供一套完整的异构计算解决方案。目前支持TVM以及Arm NN两套异构计算平台,能够将SoC芯片中的CPU、GPU、NPU IP的性能协同发挥出来。

解决NPU碎片化问题,“周易”NPU软件开源计划


从AI训练和推理的生态来看,“周易”NPU主要做推理,没有涉足训练的部分。安谋科技产品总监杨磊分享了一个数据,安谋科技统计了过去一年里国内的60个用到NPU的芯片项目。发现其中大概55%的项目用的都是自研NPU,但是每一家都不一样。剩下的部分主要是基于IP的解决方案,过去1年大概有8个项目用了安谋科技“周易”NPU的方案,虽然“周易”NPU占的比例从整个饼图来看不高,但在IP领域仍然是最多的。这就说明整个硬件的平台是极其碎片化的。



硬件碎片化所带来的弊端就是每一家硬件都有自己的软件工具链,对应的可能就有40种工具链。这对应用开发来讲是极其复杂或者是痛苦的。怎样能在推理侧使生态更加友好,尤其是对于软件开发者、应用开发者更加友好,可以让他们更加方便、快捷地做应用的开发和部署,是安谋科技一直在深入思考的问题。

随着“周易”X2 NPU的推出,安谋科技正式发布“周易”NPU软件开源计划,并更新了生态伙伴计划的最新进展。作为立足全球生态、深耕本土创新的重要举措,安谋科技一方面通过开放源码的形式,携手更多开发者以及合作伙伴共建国内NPU产业生态;另一方面,通过战略合作、产品技术支持、项目协作等形式与合作伙伴共建上下游产业生态,共同推动各领域软硬件、工具链、行业标准以及社区联盟等生态环节的发展。

在“周易”NPU软件开源计划下,安谋科技已率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易”Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。在满足合作伙伴更自主、更灵活的算法移植需求的同时,进一步提升了软件开发效率,避免重复造轮。据悉,上述只是“周易”NPU软件开源计划的第一步,安谋科技后续还将逐步开放更多资源,如模型量化、算子实现等源代码。

“周易”NPU软件部署


截至目前,凭借完整的工具链及技术服务,“周易”NPU软件开源计划已经有第一批合作伙伴率先加入,其中不乏来自AIoT、智能汽车、智能操作系统等领域的明星企业。

小结:

安谋科技一直积极推进自研IP的研发。安谋科技执行副总裁、产品研发负责人刘澍 William Liu表示,以NPU研发团队来看,经过5年的努力从零开始建立,目前在北京、上海、深圳吸引和培养众多工程师,整个团队拥有超过130位工程师从事开发包含硬件和软件的NPU全栈研发。我们可以看到,如今安谋科技已经做了多款NPU产品,已发展到第三代架构,此次大算力“周易”X2 NPU的推出可谓恰逢其时,赶上AIoT、智能终端和汽车大发展的浪潮。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30146

    浏览量

    268419
  • NPU
    NPU
    +关注

    关注

    2

    文章

    270

    浏览量

    18545
  • 安谋科技
    +关注

    关注

    0

    文章

    101

    浏览量

    7529
收藏 人收藏

    评论

    相关推荐

    40+TOPS NPU,AI PC处理器开卷

    的人工智能任务。同时,微软还提出,这款全新电脑搭配拥有全新神经处理单元NPU的芯片,可实现每秒超过40万亿次即40+TOPS的运算。那么也就是说,若要符合微软给出的AI PC的定义,NPU
    的头像 发表于 07-14 01:11 4370次阅读
    40+<b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>,AI PC处理器开卷<b class='flag-5'>算</b><b class='flag-5'>力</b>

    NPU边缘计算中的优势

    随着物联网(IoT)和5G技术的发展,边缘计算作为一种新兴的计算模式,正在逐渐成为处理和分析数据的重要手段。 NPU的定义与功能 NPU是一
    的头像 发表于 11-15 09:13 261次阅读

    英特尔携手浪潮信息从边缘计算边缘迈进

    对多样化应用场景的适应性和服务能力。随着大模型和人工智能领域的快速发展,需求将愈发成为制约企业转型、成长的因素。 从边缘计算边缘
    的头像 发表于 11-10 14:03 731次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    、GPU、NPU,给我们剖析了芯片的微架构。书中有对芯片方案商处理器的讲解,理论联系实际,使读者能更好理解芯片。 全书共11章,
    发表于 10-15 22:08

    超紧凑模块提供高达 39 TOPS AI

    的 XDNA™ NPU 和强大的 Radeon RDNA 3™ 图形处理器,可为AI推理提供高达39 TOPS的惊人。      这使得
    发表于 09-25 13:46 1272次阅读
     超紧凑模块提供<b class='flag-5'>高达</b> 39 <b class='flag-5'>TOPS</b> AI <b class='flag-5'>算</b><b class='flag-5'>力</b>

    米尔STM32MP2核心板首发新品上市!高性能+多接口+边缘

    的工业4.0应用赋能。 机器视觉 先进的边缘AI STM32MP25内置高达1.35 TOPSN
    发表于 09-20 18:24

    名单公布!【书籍评测活动NO.43】 芯片 | 高性能 CPU/GPU/NPU 微架构分析

    的强有力竞争者;苹果、Cerebras、Ampere、特斯拉等企业的加入让这场“芯片战争”更加热闹。 CPU、GPU、NPU等芯片是推动科技创新的基石,
    发表于 09-02 10:09

    ARMxy工业控制器为视频监控提供1Tops支持

    Cortex-A55,主频高达1.8GHz/2.0GHz,搭载8/16/32GByte eMMC,1/2/4GB yte LPDDR4X 多种组合的RAM与ROM,并且内置1TOPS
    的头像 发表于 08-20 12:03 265次阅读
    ARMxy工业控制器为视频监控提供1<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>支持

    ARMxy ARM嵌入式计算机搭载 1 TOPS NPU支持深度学习

    ARMxy ARM嵌入式计算机BL410系列内置了1TOPS NPU,它每秒可以执行高达一万
    的头像 发表于 08-20 11:53 297次阅读
    ARMxy ARM嵌入式<b class='flag-5'>计算</b>机搭载 1 <b class='flag-5'>TOPS</b> <b class='flag-5'>NPU</b>支持深度学习

    刷新AI PC NPU,AMD锐龙AI 9 HX 375领衔55 TOPS

    NPU性能第一梯队。而此次推出的Ryzen AI 9 HX 375进一步提升至55 TOPS。在NPU
    的头像 发表于 08-07 00:28 3215次阅读
    刷新AI PC <b class='flag-5'>NPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>,AMD锐龙AI 9 HX 375领衔55 <b class='flag-5'>TOPS</b>

    AIGC掀需求革命,边缘计算将不再“边缘

    AI瓶颈下边缘计算崛起
    的头像 发表于 04-22 14:51 327次阅读

    NPU3倍,新一代酷睿Ultra Lunar Lake抢先看

    在人工智能(AI)工作负载中可以提供100+ TOPS,其中45 TOPS来自于NPU。 此前有报道称,未来微软的Copilot人工智
    的头像 发表于 04-14 11:04 607次阅读

    AMD推出锐龙8000嵌入式处理器,AI高达39 T

    此款CPU选用4纳米制程、AMD基于“Zen 4”架构的CPU核心以及使用RDNA 3架构GPU和XDNA架构NPU,实现高达39TOPS的AI
    的头像 发表于 04-03 10:39 821次阅读

    256Tops!CSA1-N8S1684X服务器

    (基于BM1684X的高服务器)高AI处理器BM1684X搭载了BM1684AISo
    的头像 发表于 03-23 08:02 1456次阅读
    256<b class='flag-5'>Tops</b><b class='flag-5'>算</b><b class='flag-5'>力</b>!CSA1-N8S1684X<b class='flag-5'>算</b><b class='flag-5'>力</b>服务器

    ArmSoM Sige7替代Jetson-Orin-Nano,Xavier NX 搭载Hailo-8,32TOPS

    通过PCIe接口外接Hailo-8高开发板,为用户提供了一种强大而高效的边缘计算解决方案。 ArmSoM Sige7的亮点 1. RK3588 处理器
    的头像 发表于 12-18 11:34 1214次阅读
    ArmSoM Sige7替代Jetson-Orin-Nano,Xavier NX 搭载Hailo-8,32<b class='flag-5'>TOPS</b><b class='flag-5'>算</b><b class='flag-5'>力</b>