0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

本土NPU IP再升级!高达320TOPS算力,引领边缘计算与汽车浪潮

21克888 来源:电子发烧友网 作者:黄晶晶 2023-04-03 10:02 次阅读

2023年3月28日,安谋科技(中国)有限公司正式发布自研新一代人工智能处理器“周易”X2 NPU。周易NPU是安谋的一个IP系列,此前发布的“周易”X1 NPU产品主要是基于的V1、V2架构,更多是用在AIoT领域,此次发布的“周易”X2 NPU是安谋科技第一款基于V3架构的NPU,算力有大幅提升,能够支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,计算效率与计算密度也得到了显著提升。还针对车载、边缘计算等应用场景进行了专门优化,为新兴领域不断迭代的计算需求提供更为完善的解决方案。

“周易”X2 NPU性能全面升级


“周易”X2 NPU作为新一代人工智能处理器,采用第三代“周易”架构,支持多核Cluster,最高可达320TOPS子系统。

安谋科技产品总监杨磊介绍,相比于“周易”X1和“周易”Z系列都是单核NPU的解决方案,“周易”X2有一个集群(Cluster)的概念,拥有多个NPU的核,算力得到成倍的提升。Cluster内部有总线的互联,用于数据的沟通和维护,也有内部的存储系统,协调不同核间的数据通信。同时还支持多个Cluster,整个算力可以成倍提升。通过多核构成Cluster,多个Cluster构成一个子系统的方案来完成大算力的产品形态的交付。

“周易”X2 NPU主要功能升级


杨磊进一步分析,这里面有一个很核心的功能,就是任务调度器Task Scheduling Manager,简称为TSM,它可以同时调度多个Cluster的多个核心。举例来说,当车有10个摄像头,有10路数据进来,可以每一路都跑一个检测算法,它可以当成是10个任务,假设只有4个核心,通过调度器发现哪个核是空闲的,就可以把任务立刻调度给那个核心做计算,因此它完全是动态、实时的调度的解决方案。实时的硬件任务管理使得“周易”X2 NPU可实现最高千万次/秒的任务调度,将各个计算单元的效能发挥到最佳。

一般来说,数据要从片外的存储设备中来读取,这个传输通道在物理上有限制,其次通道速度越快整个方案的成本也会越高,而i-Tiling的技术方案节省带宽需求,进一步提升计算效率,从而大幅降低系统的成本。同时,还增加了无损权重压缩技术,进一步节省带宽。以汽车应用上处理一个4K分辨率的单路图像为例,去噪声计算需要40GB带宽,基于i-Tiling技术,能够大幅压缩带宽。它是把一个很大的图片拆成若干个小块,这样每一个tile就变得很小,而memory缓存在芯片内部,不需要把数据放到外部设备做读写操作,从而节省对外部带宽的需求。

此前,“周易”Z系列,包括“周易”X1的处理都是基于定点的方案,也就是int8整型方案来做的NPU,它的好处是兼顾了计算性能和密度和芯片成本。在汽车领域对于计算的精度要求更高,“周易”X2 NPU支持混合精度计算,支持int4/int8/int12/int16/int32,fp16/bf16/fp32多精度融合计算,既可以是定点的计算、整型的数据计算,也支持浮点的16bit或者是32bit的计算,计算效率与计算密度得到显著提升。
“周易”X2 NPU优化了Transformer性能。如今汽车领域大量地采用Transformer结构,Transformer是一个在汽车领域很常见的AI模型,有基于图像、基于分割检测的模型。

此外,在低功耗领域做了很多的技术升级,在7nm工艺节点上做到10TOP/W的能效。面向手机、平板电脑、PC等市场可以提供30T算力,这个算力基本上可以对标现在业界旗舰手机的NPU的解决方案。针对手持设备做了专门的优化,比如说拍照的AI去噪声,视频超分辨率、插帧等。总之整个“周易”X2产品有大量的技术升级,满足面向汽车以及手持设备的产品的需求。

在灵活性方面,“周易”X2 NPU在支持自定义算子、满足各种模型部署需求的基础上,还面向各类应用场景提供定制化AI解决方案,以进一步满足客户在智能驾驶、手机影像AI处理、人机交互等场景中的差异化需求。
为帮助开发者更方便、快速地进行算法移植和调试,“周易”X2 NPU还提供了一套完善的人工智能软件平台,可以更好地满足开发者对性能调优、系统部署的需求。目前,“周易”X2 NPU已面向客户正式交付,并且今年会有多款搭载“周易”X2 NPU的芯片产品面世。

V3架构突破,与完整的“周易” Compass软件平台


安谋科技NPU研发高级总监孙锦鸿Ryan解析,在“周易”X2 NPU中,一个核分成两个大的计算部件,一个是可编程的、灵活的单元,采用VLIW结构,它是通用向量处理单元。另外,我们还专门为Tensor处理做了不同种类算子加速单元,跟灵活单元有机结合成为一个可扩展性的核结构。扩展性层面,在一个Cluster里扩展,通过高带宽的内部NoC,以及一些Debug单元、电源管理单元、内部memory构成一个计算Cluster,再通过Task Scheduling Manager,将计算任务调度到合适的核,或者合适的Cluster里。“周易”架构能做到高效能AI固定运算和灵活编程要求的有效平衡。



孙锦鸿表示,对比起“周易”v1、v2架构,v3架构更强调并行性和可扩展性。整个“周易”NPU的设计核心思想在指令、数据处理单元的同构计算里做到了最大并行。在整个v3架构的指令集中,安谋科技定义了超过1000个专门针对不同场景的指令,这些指令也是基于VLIW结构,由长指令和短指令构成,并且可以支持64bit和128bit的指令包,做到统一的指令集组合。



孙锦鸿分析,在运算单元里,需要很多AI固定功能的加速,我们提供了高效的4K MAC矩阵,适用于CNN、RNN、Transformer等结构。其次提供了很多可重置的结构单元,以适配很多新算子,因为很多AI功能背后的模型或算子更新是日新月异,这些可重置的结构单元就给我们的NPU提供了很多的可扩展性和适应性。
灵活单元层面,我们就做了很多针对AI标量、矢量的指令,这些指令都可以通过OpenCL实现很好的编程体验。每个基础单元可以做到1024bit/cycle的数据处理,它的数据带宽可以根据1024bit做到较为有效的拓展。也加入支持矩阵浮点运算。

“周易”NPU不仅提供硬件NPU IP,还提供一整套完整的“周易” Compass软件平台,这个平台中包括模型编译器、调试器,不仅可以分析和判断运行中是否有一些异常和错误,还可以调试性能。



孙锦鸿表示,基于V3架构,安谋科技开发了很多底层软件、中间部件,包括runtime、IDE、simulator等等都整合到“周易” Compass软件平台里。也开发了很多高效能的NN算子,供客户直接调用。还开发了专门的NN compiler,整合i-Tiling的技术。此外,提供一个友好的OpenCL的Compiler,通过单次编程就可以把这么多运算单元整合起来。在顶层上,我们也有统一的Parser对接到各种神经网络框架。此外,还有一个核心部件是量化部件,可以把各种浮点的原始模型量化到合适精度,给NPU最高效的运行。我们也定义了一套名为Compass IR的公开标准接口,将IR直接对接到上层神经网络或底层硬件。并且这一部分设计已经实现了开源。


“周易” Compass软件平台现在已经支持了上百种AI算子或者是AI层,支持上百种AI模型,希望通过这样一套“周易” Compass软件平台来支持全部的软件模型,因为整个“周易”NPU具有完全可编程性,客户可以开发新的算子。“尤其是在汽车领域,无论是模型、数据,对客户来讲都是核心资产,它的算法中就采用了很多自定义算子,也就是非标准算子,这些算子都能体现出车厂、自动驾驶厂商的特有技术或方案。这种情况下,我们就可以支持这些客户进行自定义算子的部署。”孙锦鸿说道。


同时,“周易” Compass软件平台不单可以把NPU的性能充分发挥出来,还结合通用的Arm CPU处理器,GPU IP单元,以及ISP、VPU、SPU等提供一套完整的异构计算解决方案。目前支持TVM以及Arm NN两套异构计算平台,能够将SoC芯片中的CPU、GPU、NPU IP的性能协同发挥出来。

解决NPU碎片化问题,“周易”NPU软件开源计划


从AI训练和推理的生态来看,“周易”NPU主要做推理,没有涉足训练的部分。安谋科技产品总监杨磊分享了一个数据,安谋科技统计了过去一年里国内的60个用到NPU的芯片项目。发现其中大概55%的项目用的都是自研NPU,但是每一家都不一样。剩下的部分主要是基于IP的解决方案,过去1年大概有8个项目用了安谋科技“周易”NPU的方案,虽然“周易”NPU占的比例从整个饼图来看不高,但在IP领域仍然是最多的。这就说明整个硬件的平台是极其碎片化的。



硬件碎片化所带来的弊端就是每一家硬件都有自己的软件工具链,对应的可能就有40种工具链。这对应用开发来讲是极其复杂或者是痛苦的。怎样能在推理侧使生态更加友好,尤其是对于软件开发者、应用开发者更加友好,可以让他们更加方便、快捷地做应用的开发和部署,是安谋科技一直在深入思考的问题。

随着“周易”X2 NPU的推出,安谋科技正式发布“周易”NPU软件开源计划,并更新了生态伙伴计划的最新进展。作为立足全球生态、深耕本土创新的重要举措,安谋科技一方面通过开放源码的形式,携手更多开发者以及合作伙伴共建国内NPU产业生态;另一方面,通过战略合作、产品技术支持、项目协作等形式与合作伙伴共建上下游产业生态,共同推动各领域软硬件、工具链、行业标准以及社区联盟等生态环节的发展。

在“周易”NPU软件开源计划下,安谋科技已率先对外开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,并向相关合作伙伴提供“周易”Compass软件平台,包括软件模拟器、调试器、C编译器等在内的多种软件工具。在满足合作伙伴更自主、更灵活的算法移植需求的同时,进一步提升了软件开发效率,避免重复造轮。据悉,上述只是“周易”NPU软件开源计划的第一步,安谋科技后续还将逐步开放更多资源,如模型量化、算子实现等源代码。

“周易”NPU软件部署


截至目前,凭借完整的工具链及技术服务,“周易”NPU软件开源计划已经有第一批合作伙伴率先加入,其中不乏来自AIoT、智能汽车、智能操作系统等领域的明星企业。

小结:

安谋科技一直积极推进自研IP的研发。安谋科技执行副总裁、产品研发负责人刘澍 William Liu表示,以NPU研发团队来看,经过5年的努力从零开始建立,目前在北京、上海、深圳吸引和培养众多工程师,整个团队拥有超过130位工程师从事开发包含硬件和软件的NPU全栈研发。我们可以看到,如今安谋科技已经做了多款NPU产品,已发展到第三代架构,此次大算力“周易”X2 NPU的推出可谓恰逢其时,赶上AIoT、智能终端和汽车大发展的浪潮。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    27529

    浏览量

    265167
  • NPU
    NPU
    +关注

    关注

    2

    文章

    229

    浏览量

    18219
  • 安谋科技
    +关注

    关注

    0

    文章

    94

    浏览量

    7468
收藏 人收藏

    评论

    相关推荐

    NPU和AI TOPS是什么?它们有哪些性能?

    可运行AI模型的性能、准确性和效率。如今,TOPS(每秒万亿次运算)是衡量处理器AI性能的主要方式之一。TOPS是基于处理器所需的架构和频率,衡量处理器潜在AI推理峰值性能的方法,比如神经网络处理器(NPU)。下面我们将深入探讨
    的头像 发表于 06-13 10:33 277次阅读

    边缘计算网关:数字化转型浪潮的基石

    摘要:在数字化转型的浪潮中,边缘计算网关成为连接中心计算边缘设备的重要桥梁。本文将探讨边缘
    的头像 发表于 05-30 18:09 481次阅读

    全志T527芯片详解【一】:计算性能

    algorithm High memory bandwidth and low power consumption in 3D graphics processing 边缘计算 AI赋能 集成2Tops
    发表于 05-24 14:10

    NPU算力3倍,新一代酷睿Ultra Lunar Lake抢先看

    在人工智能(AI)工作负载中可以提供100+ TOPS的算力,其中45 TOPS来自于NPU。 此前有报道称,未来微软的Copilot人工智能大模型可以在搭载英特尔处理器的PC上本地运行,至少需要40
    的头像 发表于 04-14 11:04 378次阅读

    AMD推出锐龙8000嵌入式处理器,AI算力高达39 T

    此款CPU选用4纳米制程、AMD基于“Zen 4”架构的CPU核心以及使用RDNA 3架构GPU和XDNA架构NPU,实现高达39TOPS的AI算力,其中NPU算力达到16
    的头像 发表于 04-03 10:39 448次阅读

    采用芯原NPU IP的AI类芯片已在全球出货超过1亿颗

    、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。在过去七年里,芯原在嵌入式AI/NPU领域全球领先,其NPU IP已被72家客户用于上述市场领域的128款A
    的头像 发表于 02-29 10:26 266次阅读

    能RADXA微服务器试用体验】Radxa Fogwise 1684X Mini 规格

    通过网络可以了解到,能RADXA微服务器的具体规格: 处理器:BM1684X 高达32Tops INT8峰值
    发表于 02-28 11:21

    请问用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量?

    来自一位用户的咨询,麻烦帮忙解答,越详细越好,有图有真相,可以适当提供一些英飞凌解决方案和产品推荐。 用强大的SOC来控制汽车是不是能够大幅减少MCU的使用数量? 未来电动汽车会使
    发表于 02-02 07:16

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    强劲的AI边缘计算盒子# 边缘计算

    AI边缘计算
    成都华江信息
    发布于 :2023年11月24日 16:31:06

    IDC 2023H1 中国边缘计算市场报告: 浪潮信息蝉联份额第一

    日前,国际数据机构IDC发布《2023上半年中国边缘服务器市场追踪数据报告》。数据显示,随着中国运营商的5G建设步伐稳步前进,以及服务、能源、金融、制造、交通等行业智慧化转型升级边缘计算
    的头像 发表于 11-18 11:52 1232次阅读
    IDC 2023H1 中国<b class='flag-5'>边缘</b><b class='flag-5'>计算</b>市场报告: <b class='flag-5'>浪潮</b>信息蝉联份额第一

    BM1684架构介绍

    L2cache 2.2 峰值 峰值: FP32峰值 = 64 * 16 *
    发表于 09-19 08:11

    鸿创达基于瑞芯微RK3588的8K人工智能核心板

    ,可提供6Tops。拥有丰富的接口,支持多硬盘、千兆网、WiFi6、 5G/4G扩展和多种视频输入输出;支持多种操作系统;可适用于ARM PC、边缘
    发表于 09-11 20:25

    npu是什么意思?npu芯片是什么意思?npu到底有什么用?

    npu是什么意思?npu芯片是什么意思?npu到底有什么用?  NPU的概念 NPU(Neural Processing Unit,神经网络
    的头像 发表于 08-27 17:03 3.6w次阅读

    半导体IP技术助力本土汽车芯片 Imagination出席电动汽车百人会研讨会

    ”在上海召开。会议围绕汽车芯片本土化面临的难题,推动跨国芯片公司本土化的路径等议题进行讨论,Imagination中国区产品市场副总郑魁出席会议,介绍了 Imagination 公司对自主芯片的思考,以及如何通过
    的头像 发表于 07-13 11:55 394次阅读
    半导体<b class='flag-5'>IP</b>技术助力<b class='flag-5'>本土</b><b class='flag-5'>汽车</b>芯片 Imagination出席电动<b class='flag-5'>汽车</b>百人会研讨会