0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ARM发布第一代面向AI和机器学习的处理器,架构名为“Trillium”

DPVg_AI_era 来源:未知 作者:李倩 2018-08-27 08:32 次阅读

ARM发布第一代面向AI机器学习处理器,架构名为“Trillium”,吸收了从硬件、数据压缩和编译器方面最成功的创新中的优点,其实是一款兼采众家之长的“聚合体”。ARM表示,该处理器舍弃了高速缓存,兼具英伟达TensorCore的功能、FPGA的可编程性,以及DSP的低功耗处理能力。

在过去的几年中,有几家芯片创业公司一直致力于寻找新的方法来有效地训练和执行神经网络,但在现有技术和理念的基础上,其实真的必要从头做起吗?

本周,在一年一度的Hot Chips会议上,ARM展示了其第一代机器学习处理器,预计今年晚些时候,ARM的合作伙伴就可以使用其IP。

兼采众长,ARM“拼”出世界最好的AI处理器

该处理器架构名为“Trillium”,是由一些我们并不陌生的元素与ARM的逻辑核心捆绑而来的,对于那些需要Nvidia Volta GPU的TensorCore功能的人来说,ARM这款处理器可能意义重大,比如DeePhi神经网络压缩技术(现在是Xilinx的一部分)、FPGA的可编程性,以及DSP的低功耗处理能力。

换句话说,ARM可能刚刚“拼凑”出了世界上最好的AI处理器,这对于那些在大型通用设备上放置大量额外空间的芯片制造商来说,可能会带来很大的麻烦。

ARM的技术总监Ian Bratt本周在Hot Chips上表示,ARM首次涉足AI处理器的设计目标是尽可能的推广,以便能够满足服务器端AI的市场需求,并将自家AI处理器更多用于汽车和具有物联网需求的小型设备上。

Bratt表示:

“在研发第一代机器学习处理器的过程中,我们初期出现了一些失误,将旧框架套用在新问题上。我们知道GPU、CPU和DSP是如何用于机器学习上的,但我们开始研究如何能够清晰地利用每一项技术。我们可以利用CPU的技术处理控制和可编程性问题,用GPU的技术解决数据压缩、数据移动和计算密度等问题,这些都可以提高DSP的效率和开源软件的开发。”

如下图所示,ARM的机器学习架构并没有什么特别之处,但值得注意的是,该架构吸收了从硬件、压缩和编译器方面最成功的创新中的优点。

搭建架构的模块是计算引擎,每块为64 KB的SRAM片,共16块。 MAC引擎(与英伟达的TensorCore不同)是执行卷积化的地方,可编程层引擎负责处理网络各层之间的大部分必要的shuffling。该架构具有DMA引擎,用于与外部存储器接口进行通信。 ARM自己的Cortex技术负责的引擎控制。

不再需要缓存,控制流程大大简化

对于一家以创新为基础公司而言,ARM正在走一条自己的独特道路。公司首次涉足人工智能芯片,芯片的组件都是大家并不陌生的,ARM在用于神经网络的点积(dot product)引擎上做出了一些关键性创新,提升了执行效率、降低了网络噪音。

我们很可能忽略的一个要素是,静态调度(static scheduling)的价值,这是影响芯片整体性能和效率的关键部分。

存储器的访问模式完全是可静态分析的,并且很容易理解和映射,但是许多设备没有利用这一点。 CPU具有复杂的高速缓存层次结构,可以用于非确定性存储器访问进行优化,但对于确定性的神经网络,可以提前将所有内容放在内存中。然后,编译器为不同的组件生成命令流(由ARM控制处理器进行编配),到达寄存器以控制这些组件。

简而言之就是:不需要缓存。此外还有一个好处是流量控制流程被大大简化,可以进一步降低能耗,提升处理器性能的可预测性。

处理卷积化的方式可以进一步提高效率。下图中的SRAM突出了编译器是如何为输入特征映射和压缩模型分配部分资源的。每个计算引擎都将使用跨越不同计算引擎的不同特征映射。

ARM的MAC引擎可以做8个16×16点积。我们已经讨论了这一点的重要性,但是在这些操作中有很多零,可以在MAC引擎中进行检测和调整,以避免浪费更多的能量。

ARM芯片还具备可编程层引擎,旨在通过可编程性“预见”处理器的。它使用Cortex CPU技术来支持非卷积运算符,以及向量和神经网络扩展。

使用机器学习处理器特征映射压缩技术可以获得更高的效率,这些技术听起来和DeePhi在CNN压缩上的作用类似。

打造通用平台,实现机器学习与现有流程的整合

Bratt表示,目前ARM的机器学习业务部门拥有150名员工,随着对机器学习需求的不断增长,这一数字也会不断增加,并将机器学习整合到新的和现有的工作流程和配置中。他表示,我们的目标是让这项工作横跨一系列细分市场,但是要为一类用户提供一个具备其所需全部功能的通用平台并不简单。

不用高速缓存、精简压缩流程、使用混合精度算法,并与精简化的SRAM片上计算相结合,将其移植到密集的点积引擎上,这些都使得ARM的芯片IP成为市场上的一个引人注目的焦点,而且可以针对关键的工作负载做进一步的细化。

与某些AI专用处理器相比,ARM处理器增加了高带宽内存(HMC)可能使其更容易识别,但是需要授权用户了解这些组件系统中协同工作的方式。 ARM工程师真正从生态系统中汲取了最佳的AI处理器技术,并使用开源软件挂钩,可能大幅扩大授权许可范围。

上图所示为Inception V3上的8X8块,突出表示了通过零/非零滤波方法实施的无损压缩结果,显著降低了神经网络的规模。压缩结果保留在内部SRAM中,并且在SRAM中保留了网络修剪技术,以便在需要时使用。

对这类技术进行授权时的选择并不多,同时ARM也要确定,在现有的神经网络处理器中有哪些最成功的、值得汲取的技术和组件。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ARM
    ARM
    +关注

    关注

    134

    文章

    9203

    浏览量

    370838
  • 编译器
    +关注

    关注

    1

    文章

    1645

    浏览量

    49440
  • 机器学习
    +关注

    关注

    66

    文章

    8460

    浏览量

    133379

原文标题:Arm首代AI架构如此彪悍!集英伟达、英特尔、赛灵思三位优势于一体

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Arm自研AI芯片,英伟达、MTK联合研发Arm AI PC处理器,算力之战升级

    电子发烧友网报道(文/吴子鹏)作为目前两大主流处理器架构Arm架构在移动处理器有着非常强的
    的头像 发表于 05-14 00:14 4726次阅读

    文详解Arm架构Armv9.6-A中的最新功能

    Arm CPU 是当今人工智能 (AI) 赋能软件的关键,它可解释、处理和执行指令。Arm 指令集架构 (ISA) 作为硬件和软件的接口,指
    的头像 发表于 12-17 10:22 2033次阅读
    <b class='flag-5'>一</b>文详解<b class='flag-5'>Arm</b><b class='flag-5'>架构</b>Armv9.6-A中的最新功能

    如何学习ARM

    ,编写些小型的程序,并进行调试和测试。通过实践项目,可以加深对 ARM 处理器架构的理解和应用。 5.深入研究高级主题: 如果你对 ARM
    发表于 10-11 10:42

    【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

    今天阅读了《大模型时代的基础架构》前两章,还是比较轻松舒适的;再就是本书知识和我的工作领域没有任何关联,切都是新鲜的,似乎每读页都会有所收获,这种快乐的学习过程感觉也挺不错的。
    发表于 10-10 10:36

    ARM处理器和CPU有什么区别

    ARM处理器和CPU(中央处理器)之间的关系及区别,可以从多个维度进行深入探讨。首先,需要明确的是,ARM处理器并非
    的头像 发表于 09-10 11:24 2125次阅读

    ARM处理器和CISC处理器的区别

    ARM处理器和CISC(复杂指令集计算机)处理器在多个方面存在显著的区别。这些区别主要体现在架构原理、性能与功耗、设计目标、应用领域以及市场生态等方面。
    的头像 发表于 09-10 11:10 629次阅读

    ARM处理器的结构和特点

    ARM处理器,全称Advanced RISC Machines,是种基于精简指令集(RISC)架构的微处理器。其结构和特点在嵌入式系统、移
    的头像 发表于 09-10 11:09 1964次阅读

    ARM处理器概述和发展历程

    ARM处理器种基于RISC(精简指令集计算机)架构的高性能微处理器,由英国公司ARM(Adv
    的头像 发表于 09-10 11:07 1041次阅读

    英特尔发布一代Lunar Lake处理器

    在近期举办的中国台北国际电脑展(Computex)上,英特尔CEO盖尔辛格向全球展示了其最新的技术成果。他发布了第六至强处理器,并重点强调了Gaudi AI加速
    的头像 发表于 06-05 11:23 1092次阅读

    在英特尔酷睿Ultra处理器上优化和部署YOLOv8模型

    英特尔 酷睿 Ultra处理器是英特尔公司推出的个高端处理器品牌,其第一代产品基于Meteor Lake架构,使用Intel 4制程,单颗
    的头像 发表于 05-30 17:16 2292次阅读
    在英特尔酷睿Ultra<b class='flag-5'>处理器</b>上优化和部署YOLOv8模型

    谷歌将推出第六数据中心AI芯片Trillium TPU

    在今日举行的I/O 2024开发者大会上,谷歌公司震撼发布了其第六数据中心AI芯片——Trillium Tensor处理器单元(TPU)。
    的头像 发表于 05-15 11:18 716次阅读

    联发科或将与英伟达开发Arm架构AI PC处理器

    据悉,联发科正与英伟达合作,共同开发基于Arm架构AI PC处理器。这款新芯片预计将在第三季度完成设计定案,第四季度进入验证阶段。
    的头像 发表于 05-13 10:18 634次阅读

    华硕微星发布AGESA固件更新,确认兼容AMD新一代Ryzen处理器

    近日,华硕与微星先后对 AMD 600 系列主板推出AGESA固件更新,确认了其兼容“下一代AMD Ryzen CPU”的能力;技嘉亦证实,下一代Ryzen桌面处理器名为“Ryzen
    的头像 发表于 04-24 15:34 666次阅读

    Arm发布一代Ethos-U AI加速 Arm旨在瞄准国产CPU市场

    Arm发布的新一代Ethos-U AI加速确实在业界引起了广泛关注。
    的头像 发表于 04-18 15:59 877次阅读

    第一代通用开放人形机器人本体即将发布

    北京人形机器人创新中心近期将发布第一代通用开放人形机器人本体,这消息标志着人形机器人领域的
    的头像 发表于 03-20 14:20 950次阅读