0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Arm迟迟推出全新NPU系列的原因是什么

独爱72H 来源:雷锋网 作者:佚名 2019-10-30 15:48 次阅读

(文章来源:雷锋网)

Arm推出了一系列全新的IP,包括NPU、GPU以及DPU。NPU尤为值得关注,不仅因为NPU系列同时发布了N57和N37两款新品,还因为Arm的ML处理器(Machine Learning Processor)系列名称Ethos也正式公布。全新AI系列产品的亮相,意味着Arm的AI策略更加明晰。

实际上,Arm原计划在2019年第一季度发布首款ML处理器。之所以选择这个时间点,Arm ML事业群商业与营销副总裁Dennis Laudick去年11月接受雷锋网专访时表示:“最近我们已经看到机器学习技术正在稳定和成熟,市场需求也正在不断增加,我们认为现在是进入市场的最佳时机。”

不过,Arm首款ML处理器的发布时间是在今年5月,比计划略晚一些。Dennis上周再次接受雷锋网专访时表示,发布推迟有很多原因,产品开发是主要的问题。ML处理器开发的过程中面临很多挑战,其中一个很大的挑战就是数据移动处理不好就会消耗大量的电,另一个大的挑战就是如何权衡效率和灵活性。

虽然产品的开发影响了首款ML处理器发布的时间,但Arm并没有在首款ML产品发布时就公布其系列名称和型号。而是直到面向主流市场,提供性能、成本以及功耗均衡的N57和对成本极端敏感的N37发布,Arm才正式公布ML系列处理器的的名称——Ethos(中文可翻译为精神)。此时,外界也才清楚5月发布的首款ML处理器型号为Ethos-N77,定位高端,面向高性能需求的市场。

这是为什么?Dennis解释称,其实有很多原因,Arm内部也在重新思考命名系统,如果推出第一款机器学习产品就立刻发布新的产品系列名称,可能大家会把对这个系列品牌的印象和认知捆绑在这一款产品身上,我们不希望造成这样的效果。我们希望大家看到Ethos这个产品名下面的产品系列是广泛而丰富的,这就是为什么要等到有针对三个不同市场,三个不同档次的产品都出来了,才正式的对外公布产品系列的名称的主要原因。

但更为关键的是,市场上已经有众多竞争者,此时推出Ethos还有竞争力吗?Dennis表示,Arm的成功一直以来都得益于生态系统,对于NPU来说挑战并不是能够做出自己的NPU,而是NPU在市场上是不是真的好用。我们已经听到合作伙伴反馈说,希望在硬件上能够标准化,他们不想支持15种不同的硬件,所以,他们期待有一个标准化的软件平台能够支持。

以具体的产品看,Ethos-N57与Ethos-N37的设计理念包括一些基本原则,例如:针对Int8与Int16数据类型的支持性进行优化;先进的数据管理技术,以减少数据的移动与相关的耗电;通过Winograd技术的落地,使性能比其他NPU提升超过200%。

AI处理器支持的数据类型非常关键,随着算法和模型的逐步成熟,边缘端的AI芯片很多都只支持Int8的数据类型,但Arm还选择支持Int16。对此,Dennis表示,机器学习支持Int8数据类型基本就足够了,我们之所以选择也支持INT16是为了更好的应对涉及到图像处理的工作,因为通常来说像素是10到12位,牵扯到颜色,支持INT16就省略了很多的数据转换的工作,非常适合图像处理。

但为何又没有支持更高精度的FP16?“因为FP16对带宽的需求相当高,这就意味着处理器的整个处理量和功耗就会提升。但消耗这么多的功耗和带宽,准确率与INT8比较却没有多少提升。” Dennis如此解释。

虽然机器学习让处理器的设计面临着新的挑战,不过Dennis认为机器学习本身并没有改变最为根本的处理器的设计原则,只不过针对机器学习的处理器设计的重点可能和通用处理器有所不同。Arm一直强调的数据管理是我们的重点,还有并行计算、矩阵乘法都是我们关注的重点。

硬件的独特性之外,软件也同样重要,特别是在AI时代,软硬一体化的重要性更加突显。要实现理想的软硬结合,Dennis认为有两大挑战,一个还是权衡的问题,也就是多少工作让硬件完成以及多少工作给软件完成。另一个是ML框架的支持,因为这个领域还很新,还会出现不同的框架。

除了软硬一体化提升AI性能,在先进半导体制程越来越昂贵的背景下,通过异构系统提升处理器性能也受到了很大的关注。但异构的系统给软件带来的更大的挑战,此时,到底是用统一的软件API去分配硬件资源实现易用性,还是对每个硬件单独编程让系统更加高效?

Arm采用的在硬件之上有特别优化的Compute Library,它会把底层的硬件和驱动进行充分优化,根据算子的不同需求驱动硬件,可以提升几倍到十几倍的效率。再上一层是Arm nn,可以将TensorFlow、Caffe等神经网络框架转换成Compute Library可以执行的任务,让开发者不用关心底层的硬件,只需要使用标准架构进行开发就可以。

因此,Dennis表示Arm采用的方式是更加底层的方式,软件直接与CPU、GPU或NPU进行沟通,做最佳匹配。这其中最大的挑战还是平衡的问题,软件的架构要做到根据具体的应用,分配专用和通用的处理器,这个百分比还可以不断调整,这是最难做的。

在框架的支持上,Arm是希望其硬件可以让开发者不需要去特别选择需要用哪一个框架。NPU软硬件的独特性和优势只有获得市场的认可才能成功,那么首先得满足不同场景的算力需求。Ethos系列现有的三款ML处理器性能从1-4 TOP/s不等,但是即便是在边缘端,也会有更高的性能需求,更不用说高性能计算的场景。

但是,随着系统的复杂性增加,计算单元的增加并不意味着一直能够带来线性的性能提升。Arm如何应对?Dennis表示,这种组装确实有其局限性,到达某个性能后可能性能的提升就消失了,但Arm在GPU和CPU多处理器架构上有很好的架构设计,能够尽量实现比较长的线性性能提升。

为应对AIoT时代更激烈的竞争,特别是RISC-V的竞争,我们也看到Arm在本月初宣布推出全新的功能 Arm Custom instructions,允许客户在特定的 CPU 内核中加入自定义指令功能,能够加速特定的用例、嵌入式物联网应用程序。

Dennis表示,我们会认真的看待RISC-V在市场上的进展和动作,就像我们认真看待其他架构一样。Arm的优势在于我们能够提供最全面的、拥有灵活性、普遍性的解决方案和产品,与此同时,我们还拥有强大丰富的生态,能够更好的满足市场的需求。
(责任编辑:fqj)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19286

    浏览量

    229854
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9097

    浏览量

    367587
收藏 人收藏

    评论

    相关推荐

    什么是NPU芯片及其功能

    在人工智能(AI)技术迅猛发展的今天,NPU芯片已经成为推动这一领域进步的关键技术之一。NPU芯片,即神经网络处理单元,是一种专门为深度学习算法设计的硬件加速器。 一、NPU芯片的概念 NPU
    的头像 发表于 11-14 15:48 1257次阅读

    什么是NPU?什么场景需要配置NPU

    在人工智能(AI)技术如火如荼的今天,NPU神经处理单元(Neural Processing Unit)作为一种新兴的硬件加速器,正在成为ARM主板配置中的新宠。与传统的CPU和GPU相比,NPU
    的头像 发表于 10-11 10:13 1622次阅读
    什么是<b class='flag-5'>NPU</b>?什么场景需要配置<b class='flag-5'>NPU</b>?

    NXP推出集成NPU的MCU,支持AI边缘设备!MCU实现AI功能的多种方式

      电子发烧友网报道(文/李弯弯)近日,恩智浦宣布推出全新i.MX RT700跨界MCU系列,支持智能AI的边缘端设备,例如可穿戴设备、消费医疗设备、智能家居设备和HMI平台。据官方介绍,新款MCU
    的头像 发表于 09-29 01:11 3814次阅读

    华纳云:企业迁移到云端的主要原因是什么?

    企业迁移到云端的主要原因是什么?原因不止一个。削减成本通常被认为是主要原因——但尽管通过云迁移降低成本无疑是一种诱人的可能性,但创新潜力才是更大的奖励。云计算通过支持企业创新而产生的价值是仅仅通过 降低 IT 成本所能实现的价值
    的头像 发表于 09-14 17:38 290次阅读

    如何利用ARMxy ARM嵌入式计算机的NPU进行深度学习模型的训练和优化?

    在正文开始前,我们先大致了解钡铼的ARMxy ARM嵌入式计算机,再来说说我们如何利用ARMxy ARM嵌入式计算机的NPU来实现深度学习模型的训练和优化。 ARMxy系列
    的头像 发表于 08-20 13:43 335次阅读
    如何利用ARMxy <b class='flag-5'>ARM</b>嵌入式计算机的<b class='flag-5'>NPU</b>进行深度学习模型的训练和优化?

    ARMxy ARM嵌入式计算机搭载 1 TOPS NPU支持深度学习

    ARMxy ARM嵌入式计算机BL410系列内置了1TOPS算力 NPU,它每秒可以执行高达一万亿次的浮点运算,这为复杂的图像处理和深度学习任务提供了充足的计算资源。在产品缺陷检测领域,ARMxy
    的头像 发表于 08-20 11:53 357次阅读
    ARMxy <b class='flag-5'>ARM</b>嵌入式计算机搭载 1 TOPS <b class='flag-5'>NPU</b>支持深度学习

    请求推荐无需NPU的OpenHarmony标准系统ARM开发板

    请教一下大佬们,目前的需求是在国产ARM开发板上跑OpenHarmony标准版系统,无需NPU/GPU,其它配置(CPU、RAM等)可以尽量高点,价位在2k以内,球球推荐!感谢大佬们!
    发表于 08-16 16:25

    芯品# 物联网市场性能最高的 NPU

    提高数据隐私和安全性。 Arm 的 Ethos NPU 如何增强边缘和端点的 AI 性能? 多年来,Arm 一直在开发边缘 AI 加速器,以支持对边缘和端点推理工作负载日益增长的需求。通过 A
    的头像 发表于 06-26 17:28 7839次阅读
    芯品# 物联网市场性能最高的 <b class='flag-5'>NPU</b>

    西安紫光国芯推出全新SSD产品系列

    西安紫光国芯UniIC近日推出全新的SSD产品系列,这一系列共包含四款SSD产品,分别是面向行业的高端型号「CTD700」、「BTD300」和「ATK110」,以及面向消费者的国潮风
    的头像 发表于 05-06 16:17 666次阅读

    全新AMD锐龙8000F系列处理器整机正式发售 配备神经处理单元(NPU

    ,将由AMD渠道品牌整机合作伙伴提供整机进行销售。全新AMD锐龙8000F系列处理器为提高效率进行了低功耗优化,其中的AMD锐龙7 8700F配备了尖端的神经处理单元(NPU),它提升AI处理效率,助力个人用户体验出色AI性能。
    的头像 发表于 04-18 11:05 856次阅读
    <b class='flag-5'>全新</b>AMD锐龙8000F<b class='flag-5'>系列</b>处理器整机正式发售 配备神经处理单元(<b class='flag-5'>NPU</b>)

    Arm推第三代边缘AI加速器:Arm Ethos-U85

    除了Ethos-U85之外,Arm推出全新的物联网参考设计平台Corstone-320。该平台将Arm最高性能的Cortex-M85 CPU、Mali-C55图像信号处理器和Eth
    发表于 04-16 11:09 683次阅读
    <b class='flag-5'>Arm</b>推第三代边缘AI加速器:<b class='flag-5'>Arm</b> Ethos-U85

    瑞萨RA MCU家族推出集成Arm® Cortex®-M23内核的全新RA0系列

    瑞萨RA MCU家族推出全新的RA0系列,RA0E1产品组是入门级简易MCU,具有出色的成本效益和超低功耗。
    的头像 发表于 04-10 14:32 1303次阅读
    瑞萨RA MCU家族<b class='flag-5'>推出</b>集成<b class='flag-5'>Arm</b>® Cortex®-M23内核的<b class='flag-5'>全新</b>RA0<b class='flag-5'>系列</b>

    Arm推出新一代Ethos-U AI加速器及全新物联网参考设计平台

    Arm 控股有限公司(纳斯达克股票代码:ARM,以下简称“Arm”)今日宣布推出 Arm Ethos-U85 神经网络处理器 (
    的头像 发表于 04-09 17:02 886次阅读
    <b class='flag-5'>Arm</b><b class='flag-5'>推出</b>新一代Ethos-U AI加速器及<b class='flag-5'>全新</b>物联网参考设计平台

    恩智浦推出首次搭载专属神经处理单元(NPU)的MCX N系列

    恩智浦半导体强势推出新品MCX N系列产品,首次集成恩智浦专用神经处理单元(NPU), 可助力实现高性能、低功耗的边缘安全智能。
    的头像 发表于 03-14 09:46 1179次阅读

    AMD推出全新Spartan UltraScale+ FPGA系列

    AMD日前正式推出全新的Spartan UltraScale+ FPGA系列,该系列作为AMD广泛的成本优化型FPGA和自适应SoC产品组合的最新成员,专为边缘端各种I/O密集型应用
    的头像 发表于 03-06 11:09 830次阅读