2023年3月28日,安谋科技(中国)有限公司正式发布自研新一代人工智能处理器“周易”X2 NPU。周易NPU是安谋的一个IP系列,此前发布的“周易”X1 NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,此次发布的“周易”X2 NPU是安谋科技第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。还针对车载、边缘计算等应用场景进行了专门优化,为新兴领域不断迭代的计算需求提供更为完善的解决方案。
“周易”X2 NPU性能全面升级
“周易”X2 NPU作为新一代人工智能处理器,采用第三代“周易”架构,支持多核Cluster,最高可达320TOPS子系统。
安谋科技产品总监杨磊介绍,相比于“周易”X1和“周易”Z系列都是单核NPU的解决方案,“周易”X2有一个集群(Cluster)的概念,拥有多个NPU的核,算力得到成倍的提升。Cluster内部有总线的互联,用于数据的沟通和维护,也有内部的存储系统,协调不同核间的数据通信。同时还支持多个Cluster,整个算力可以成倍提升。通过多核构成Cluster,多个Cluster构成一个子系统的方案来完成大算力的产品形态的交付。
“周易”X2 NPU主要功能升级
杨磊进一步分析,这里面有一个很核心的功能,就是任务调度器Task Scheduling Manager,简称为TSM,它可以同时调度多个Cluster的多个核心。举例来说,当车有10个摄像头,有10路数据进来,可以每一路都跑一个检测的算法,它可以当成是10个任务,假设只有4个核心,通过调度器发现哪个核是空闲的,就可以把任务立刻调度给那个核心做计算,因此它完全是动态、实时的调度的解决方案。实时的硬件任务管理使得“周易”X2 NPU可实现最高千万次/秒的任务调度,将各个计算单元的效能发挥到最佳。
一般来说,数据要从片外的存储设备中来读取,这个传输通道在物理上有限制,其次通道速度越快整个方案的成本也会越高,而i-Tiling的技术方案节省带宽需求,进一步提升计算效率,从而大幅降低系统的成本。同时,还增加了无损权重压缩技术,进一步节省带宽。以汽车应用上处理一个4K分辨率的单路图像为例,去噪声计算需要40GB带宽,基于i-Tiling技术,能够大幅压缩带宽。它是把一个很大的图片拆成若干个小块,这样每一个tile就变得很小,而memory缓存在芯片内部,不需要把数据放到外部设备做读写操作,从而节省对外部带宽的需求。
此前,“周易”Z系列,包括“周易”X1的处理都是基于定点的方案,也就是int8整型方案来做的NPU,它的好处是兼顾了计算性能和密度和芯片成本。在汽车领域对于计算的精度要求更高,“周易”X2 NPU支持混合精度计算,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,既可以是定点的计算、整型的数据计算,也支持浮点的16bit或者是32bit的计算,计算效率与计算密度得到显著提升。
“周易”X2 NPU优化了Transformer性能。如今汽车领域大量地采用Transformer结构,Transformer是一个在汽车领域很常见的AI模型,有基于图像、基于分割检测的模型。
此外,在低功耗领域做了很多的技术升级,在7nm工艺节点上做到10TOP/W的能效。面向手机、平板电脑、PC等市场可以提供30T算力,这个算力基本上可以对标现在业界旗舰手机的NPU的解决方案。针对手持设备做了专门的优化,比如说拍照的AI去噪声,视频超分辨率、插帧等。总之整个“周易”X2产品有大量的技术升级,满足面向汽车以及手持设备的产品的需求。
在灵活性方面,“周易”X2 NPU在支持自定义算子、满足各种模型部署需求的基础上,还面向各类应用场景提供定制化AI解决方案,以进一步满足客户在智能驾驶、手机影像AI处理、人机交互等场景中的差异化需求。
为帮助开发者更方便、快速地进行算法移植和调试,“周易”X2 NPU还提供了一套完善的人工智能软件平台,可以更好地满足开发者对性能调优、系统部署的需求。目前,“周易”X2 NPU已面向客户正式交付,并且今年会有多款搭载“周易”X2 NPU的芯片产品面世。
V3架构突破,与完整的“周易” Compass软件平台
安谋科技NPU研发高级总监孙锦鸿Ryan解析,在“周易”X2 NPU中,一个核分成两个大的计算部件,一个是可编程的、灵活的单元,采用VLIW结构,它是通用向量处理单元。另外,我们还专门为Tensor处理做了不同种类算子加速单元,跟灵活单元有机结合成为一个可扩展性的核结构。扩展性层面,在一个Cluster里扩展,通过高带宽的内部NoC,以及一些Debug单元、电源管理单元、内部memory构成一个计算Cluster,再通过Task Scheduling Manager,将计算任务调度到合适的核,或者合适的Cluster里。“周易”架构能做到高效能AI固定运算和灵活编程要求的有效平衡。
孙锦鸿表示,对比起“周易”v1、v2架构,v3架构更强调并行性和可扩展性。整个“周易”NPU的设计核心思想在指令、数据处理单元的同构计算里做到了最大并行。在整个v3架构的指令集中,安谋科技定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。
孙锦鸿分析,在运算单元里,需要很多AI固定功能的加速,我们提供了高效的4K MAC矩阵,适用于CNN、RNN、Transformer等结构。其次提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新是日新月异,这些可重置的结构单元就给我们的NPU提供了很多的可扩展性和适应性。
灵活单元层面,我们就做了很多针对AI标量、矢量的指令,这些指令都可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit做到较为有效的拓展。也加入支持矩阵浮点运算。
“周易”NPU不仅提供硬件NPU IP,还提供一整套完整的“周易” Compass软件平台,这个平台中包括模型编译器、调试器,不仅可以分析和判断运行中是否有一些异常和错误,还可以调试性能。
孙锦鸿表示,基于V3架构,安谋科技开发了很多底层软件、中间部件,包括runtime、IDE、simulator等等都整合到“周易” Compass软件平台里。也开发了很多高效能的NN算子,供客户直接调用。还开发了专门的NN compiler,整合i-Tiling的技术。此外,提供一个友好的OpenCL的Compiler,通过单次编程就可以把这么多运算单元整合起来。在顶层上,我们也有统一的Parser对接到各种神经网络框架。此外,还有一个核心部件是量化部件,可以把各种浮点的原始模型量化到合适精度,给NPU最高效的运行。我们也定义了一套名为Compass IR的公开标准接口,将IR直接对接到上层神经网络或底层硬件。并且这一部分设计已经实现了开源。
“周易” Compass软件平台现在已经支持了上百种AI算子或者是AI层,支持上百种AI模型,希望通过这样一套“周易” Compass软件平台来支持全部的软件模型,因为整个“周易”NPU具有完全可编程性,客户可以开发新的算子。“尤其是在汽车领域,无论是模型、数据,对客户来讲都是核心资产,它的算法中就采用了很多自定义算子,也就是非标准算子,这些算子都能体现出车厂、自动驾驶厂商的特有技术或方案。这种情况下,我们就可以支持这些客户进行自定义算子的部署。”孙锦鸿说道。
同时,“周易” Compass软件平台不单可以把NPU的性能充分发挥出来,还结合通用的Arm CPU处理器,GPU IP单元,以及ISP、VPU、SPU等提供一套完整的异构计算解决方案。目前支持TVM以及Arm NN两套异构计算平台,能够将SoC芯片中的CPU、GPU、NPU IP的性能协同发挥出来。
解决NPU碎片化问题,“周易”NPU软件开源计划
从AI训练和推理的生态来看,“周易”NPU主要做推理,没有涉足训练的部分。安谋科技产品总监杨磊分享了一个数据,安谋科技统计了过去一年里国内的60个用到NPU的芯片项目。发现其中大概55%的项目用的都是自研NPU,但是每一家都不一样。剩下的部分主要是基于IP的解决方案,过去1年大概有8个项目用了安谋科技“周易”NPU的方案,虽然“周易”NPU占的比例从整个饼图来看不高,但在IP领域仍然是最多的。这就说明整个硬件的平台是极其碎片化的。
硬件碎片化所带来的弊端就是每一家硬件都有自己的软件工具链,对应的可能就有40种工具链。这对应用开发来讲是极其复杂或者是痛苦的。怎样能在推理侧使生态更加友好,尤其是对于软件开发者、应用开发者更加友好,可以让他们更加方便、快捷地做应用的开发和部署,是安谋科技一直在深入思考的问题。
随着“周易”X2 NPU的推出,安谋科技正式发布“周易”NPU软件开源计划,并更新了生态伙伴计划的最新进展。作为立足全球生态、深耕本土创新的重要举措,安谋科技一方面通过开放源码的形式,携手更多开发者以及合作伙伴共建国内NPU产业生态;另一方面,通过战略合作、产品技术支持、项目协作等形式与合作伙伴共建上下游产业生态,共同推动各领域软硬件、工具链、行业标准以及社区联盟等生态环节的发展。
在“周易”NPU软件开源计划下,安谋科技已率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易”Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。在满足合作伙伴更自主、更灵活的算法移植需求的同时,进一步提升了软件开发效率,避免重复造轮。据悉,上述只是“周易”NPU软件开源计划的第一步,安谋科技后续还将逐步开放更多资源,如模型量化、算子实现等源代码。
“周易”NPU软件部署
截至目前,凭借完整的工具链及技术服务,“周易”NPU软件开源计划已经有第一批合作伙伴率先加入,其中不乏来自AIoT、智能汽车、智能操作系统等领域的明星企业。
小结:
安谋科技一直积极推进自研IP的研发。安谋科技执行副总裁、产品研发负责人刘澍 William Liu表示,以NPU研发团队来看,经过5年的努力从零开始建立,目前在北京、上海、深圳吸引和培养众多工程师,整个团队拥有超过130位工程师从事开发包含硬件和软件的NPU全栈研发。我们可以看到,如今安谋科技已经做了多款NPU产品,已发展到第三代架构,此次大算力“周易”X2 NPU的推出可谓恰逢其时,赶上AIoT、智能终端和汽车大发展的浪潮。
-
AI
+关注
关注
87文章
30146浏览量
268419 -
NPU
+关注
关注
2文章
270浏览量
18545 -
安谋科技
+关注
关注
0文章
101浏览量
7529
发布评论请先 登录
相关推荐
评论