新的芯片架构和技术-电子发烧友网

当下，边缘侧AI应用需求越来越迫切，带动着相应的AI推理芯片向前发展。所谓边缘侧AI，是指在端侧设备本身，而不是在云端或大型数据中心服务器上运行AI推理，这样做具有多种益处，例如消除了处理延迟，减少了数据传输量和带宽，并且还可以增加隐私安全。鉴于这种优势，边缘AI芯片市场的增长非常显著——2017年，市场才出现第一款商用企业边缘AI芯片，据德勤预计，2020年，边缘AI芯片销量将超过7.5亿个。

2018年，全球人工智能芯片市场规模为66.4亿美元，预计未来几年将大幅增长，到2025年将达到911.9亿美元，年复合增长率为45.2%。因此，许多公司都在努力开发人工智能芯片。然而，类似于CPU、GPU和基带处理器市场的成长过程，AI芯片市场也在经历着由少数大型玩家主导的命运。

在人工智能芯片市场竞争的公司，从英特尔、高通、Arm和Nvidia等芯片巨头，到传统的互联网科技巨头，以及众多新兴企业，如Graphcore、Mythic和Wave Computing。目前，绝大多数（90%）边缘 AI 芯片用于消费类设备，许多智能手机制造商也没有错过这个机会，开发了自己的AI加速器，例如，苹果用于iPhone的8核神经引擎。

目前，边缘AI芯片市场仍处于较为开放的竞争状态，还没有绝对的霸主。业内人士和投资者都在密切关注那些技术和产品力突出的公司。该领域将不可避免地通过投资、收购和优胜劣汰向前发展。未来几年内，可能会出现市场领导者，那么，谁将成为边缘AI芯片领域的英特尔或高通呢？

在广义层面，AI芯片的领跑者是英特尔和英伟达（Nvidia）。目前，英特尔的CPU在AI推理市场占据主导地位，而Nvidia则主导着AI训练芯片市场。然而，相对于英特尔，Nvidia似乎更胜一筹，在数据中心AI芯片市场处于领先地位。为了赶超对手，英特尔不断通过收购相关的AI芯片初创企业来提升技术能力，就在2019年12月，英特尔以20亿美元收购了以色列的深度学习加速器开发商Habana。

Habana的Goya加速器确实有独到之处，其技术很新颖，例如支持远程直接内存访问（RDMA），即从一台计算机的内存直接访问到另一台计算机的内存，而无需使用任一计算机的操作系统。此功能特别适用于大规模并行计算机集群，从而用于在云上训练复杂模型（目前，Nvidia在该领域占主导地位）。另一方面，Nvidia 最近发布了其 Jetson Xavier NX 边缘AI芯片，其算力高达21TOPS，特别是针对AI推理。

此外，一些AI芯片新星也很吸睛，如英国的Graphcore，最近，该公司与微软合作，以19.5亿美元的估值融资1500万美元。他们的旗舰产品 - 智能处理单元（IPU） - 具有极强的性能指标和新颖的架构，例如，使用处理器内内存将整个 ML 模型放在处理器内，以最大限度地减少延迟并最大化内存带宽。

另外一家初创企业Mythic 的体系结构同样值得关注，它结合了硬件技术，如内存计算（无需构建缓存层次结构）、数据流体系结构（特别适用于基于图形的应用，如推理）和模拟计算（通过使用内存元素作为可调谐电阻器计算直接在内存内部进行神经网络矩阵操作）。Mythic在融资方面也没有落后于 Graphcore — — 2019 年 6 月，软银等投资者向其增加了3000万美元的投资。

虽然还不清楚谁将最终主导AI芯片市场，但从历史发展（如CPU和基带处理器领域）经验来看，IP是取胜关键，谁在这方面占据了先机，就将在竞争中处于优势地位。因此，创新依然是发展壮大的关键。

新的芯片架构和技术

在创新方面，今年陆续出现了一些新的边缘AI芯片架构，重点针对边缘 AI 进行了优化。而新兴的RISC-V在其中扮演着重要的角色。由于是开源的，RISC-V指令集体系结构具有各种指令扩展，可提高边缘AI的性能，并降低功耗。基于这些，RISC-V在边缘侧应用对Arm发起了挑战。

今年10月，Nvidia提议收购Arm，再次引起了Arm与RISC-V之争的话题。对此，Facebook首席人工智能科学家Yann LeCun在法国研究实验室CEA-Leti的创新日上发言说，应该向RISC-V转移，用于为边缘AI应用运行神经网络。

他说：“Nvidia收购Arm这一变化让人感到不安，这让人们更多地看到了RISC-V的发展潜力，RISC-V处理器的价格非常便宜，不到10美元，许多来自中国，它们将变得无处不在。“

”边缘AI是一个超级重要的话题，“Yann LeCun说：”在未来两到三年内，它意味着尽可能降低功耗，修剪神经网络，优化权重，关闭系统中未使用的部分。在未来两到三年内，使用这种AI芯片的AR设备将陆续出现。“

他还提到：“十年后，在自旋电子学方面是否会有一些突破，或者任何允许模拟计算而无需硬件多路复用？我们能否想出类似的东西，在不进行硬件多路复用的情况下，大大缩小单个芯片的设备尺寸，这是一个很大的挑战。“

Leti 首席执行官 Emmanual Sabonnadiere 表示：”公司正在为下一代芯片开发 1nm 和 2nm 技术，我坚信我们可以不同的方式，使用传感器、神经网络和控制器来实现这种硬件。我们正在努力制定国家计划，边缘AI旨在阻止数据泛滥并保护隐私。“

Leti 也是全欧洲神经网络计划的一份子，该计划正在研究神经网络芯片的新平台。

CEA-Leti的副首席执行官兼首席技术长让·雷内·莱奎佩斯（Jean Rene Lequeypes）表示：“现在，我们已有 2000 多人在努力研究下一代AI技术。位于贝尔焦姆的伊梅克、德国的弗劳恩霍夫和莱蒂正在开发一个边缘AI平台，除此之外，我们还在格勒诺布尔的因里亚（Inria）工作，以研发Facebook和硅谷大公司需要的下一代技术和产品。“

挑战在于集成所有不同的元素，而无需使用 5nm制程及以下所需的EUV光刻机。

Lequeypes 说：”我们希望获得 1000TOPS/mW 的终极性能，这是一个非常大的挑战，以及如何处理信息存储，以及如何集成这些存储器而无需使用EUV。“

边缘AI芯片的低功耗突破

以上，提到了高性能和低功耗，在边缘侧，对低功耗的要求非常高，在某种意义上讲，它比性能更为重要。这是当下边缘AI芯片研究的一个重点。

比利时的 Imec 利用一种新技术开发了一种测试芯片，这种技术可显著降低机器学习边缘 AI 系统的功耗。

模拟内存计算（AiMC）架构使用经过修改的内存单元在网络边缘处理经过训练的神经网络中的数据，其功率效率为 2900TOPS/W。

“我们建立了一个特殊的计算单元，通过减少数字传输来节省能耗，”imec机器学习项目主管迪得里克·维克斯特说。“根据脉冲宽度，在继续进行数字计算之前，可以得到ADC上权重的求和，”他说。

“在这个芯片中，我们使用3级权重。权重可以是 -1、0 或 1，我们使用两个 SRAM 单元来存储此权重级别。计算单元是一个模拟电路，在两个SRAM单元上有几个额外的晶体管，这会产生与存储的3级权重和激活信号（DAC 的输出）的乘法成正比的模拟信号。因此，严格地说，3 级权重以数字方式存储，但所有计算都是在模拟域中完成的。“

”模拟推理加速器（AnIA）的成功流片标志着向AiMC验证迈出了重要一步，“他补充说：”参考设计不仅表明模拟内存计算在实践中是可行的，而且表明它们比数字加速器实现了10到100倍的能效。从我们的角度来看，这是机器学习程序中的一个里程碑，表明模拟计算可以具有与数字计算相同的精度。“

AnIA测试芯片已采用格芯（GF）位于德国德累斯顿的22nm FD-SOI低功耗工艺平台，芯片面积为 4平方毫米，具有 1024 个输入和 512 个输出信号，其性能与当今的GPU类似。它显示的精度与数字实现相同，达到1%，但能效为 2900TOPS/W。低功耗和低成本的结合为嵌入式硬件中的边缘AI图像识别和传感提供了机会。

GF计算和有线基础设施产品管理副总裁 Hiren Majmudar 表示：”在AI领域，模拟计算是一种很有发展前景的前沿技术，因为它允许减少数据移动，这将成为主流。“

Majmudar说：“此测试芯片向业界展示了22FDX是如何显著降低机器学习应用芯片功耗的。我们获得了与GPU相同的性能，但具有更高的能效。“

目前，新的 AiMC 功能正在德国德累斯顿Fab 1的先进300mm生产线上进行开发。

预计模拟计算AI芯片将在今年年底或明年初投入生产，并在2022年晚些时候进入大众市场，甚至可能更早。

GF使用了经过修改的SRAM单元，也可采用其他内存技术，如MRAM，闪存，DRAM等。

在低功耗AI芯片方面，Socionext开发了一个原型芯片，它结合了新开发的量化深度神经网络（DNN）技术，为小型和低功耗边缘计算设备实现了先进的AI处理能力。该原型是日本新能源和工业技术开发组织（NEDO）委托的”低功耗AI-Edge LSI技术开发“项目的一部分。

Socionext开发了一种基于”量化DNN技术“的专有架构，以减少深度学习所需的参数和激活位。结果是提高了 AI 处理的性能，同时降低了功耗。该体系结构除了传统的 8 位之外，还集成了 1 位（二进制）和 2 位（三位）的位缩减，以及该公司的原始参数压缩技术，大大减少了计算数据量。

此外，该公司还开发了一种新型的片上存储技术，可提供高效的数据传输。

这些新技术集成在原型AI芯片中，据报道，它的功耗不到5W。该公司称，这比传统的通用GPU效率高10倍。

另外一家初创AI公司Sima.ai研发了名为MLSoC的芯片，这是一个针对计算机视觉的卷积神经网络平台。该芯片原计划在2020年底流片，采用16nm制程。该公司的目标是处理每秒最高帧/瓦。

该公司称，该芯片将在5W时提供50TOPS的算力，在20W时提供200TOPS的算力。

当被问及如何与英特尔-Mobileye和Nvidia等老牌企业竞争时，Sima.ai的高层表示，降低功耗是关键，因为客户希望在能耗受限的情况下扩展其工作负载。

待解决的问题

目前，边缘AI芯片技术和市场都不成熟，处于群雄逐鹿的阶段。此时，各种规范还没成型，存在着一些问题和隐患，如系统偏差和AI伦理道德问题。

亚马逊AI和机器学习相关人士表示，即使有最好的意图，数据集中也可能存在偏差，并引入具有业务、道德和监管模型中。这意味着模型管理员必须了解系统中潜在的偏差来源。

对于简单且易于理解的算法，破解模型、检查训练期间学到的参数，以及确定它主要使用哪些功能相当容易。

然而，随着模型变得越来越复杂，这种分析变得不可能。许多公司和组织可能需要 ML 模型才能解释，然后才能在生产中使用。此外，当 ML 模型用作相应决策的一部分时，某些规则可能需要解释，而关闭循环时，可解释性也有助于检测偏差。

关键是将这些偏差监视和缓解工具集成到边缘 AI 工作流中，以便开发人员可以使用它们。

随着AI的发展，其伦理道德问题开始浮出水面，涉及到以下原则：人类自主性、可解释性、持续关注和警惕性、隐私和安全设计。

恩智浦在一份声明中表示：”作为AI领域的创新者，我们致力于应用道德原则。消费者依靠AI来承担更多责任和决策，尤其是在人们希望其设备透明、公平、安全地运行时，安全性是关键。通过将这些道德原则构建到能够感知、解释和分析边缘数据的设备中，就可以启用以合乎道德方式采取行动的AI了。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

cpu

cpu

+关注

关注
68

文章
10876

浏览量
212120
人工智能

人工智能

+关注

关注
1792

文章
47387

浏览量
238893
AI芯片

AI芯片

+关注

关注
17

文章
1889

浏览量
35093

原文标题：乱战中的AI芯片，创新与隐患谁更突出？

文章出处：【微信号：半导体科技评论，微信公众号：半导体科技评论】欢迎添加关注！文章转载请注明出处。

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解，理论联系实际，使读者能更好理解算力芯片。全书共11章，由浅入深，较系统全面进行讲解。下面目录对全书

发表于 10-15 22:08

紫光同芯推出开放式架构安全芯片E450R

2024紫光同芯合作伙伴大会在北京璀璨启幕，会上紫光同芯震撼发布了其最新技术结晶——全球首颗融合开放式硬件与软件架构的安全芯片E450R。这款芯片以其独特的双开放设计，即开放式硬件

发表于 08-28 16:28 •637次阅读

主流芯片架构包括哪些类型

主流芯片架构是芯片设计领域中的核心组成部分，它们决定了芯片的功能、性能、功耗等多个方面。当前，全球范围内主流的芯片

发表于 08-22 11:08 •1186次阅读

自动驾驶三大主流芯片架构分析

当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片。ASIC属于为AI特定场景定制的

发表于 08-19 17:11 •1667次阅读

自动驾驶三大主流<b class='flag-5'>芯片</b><b class='flag-5'>架构</b>分析

多核架构高性能电机控制芯片

基于传统单核架构的电机控制芯片已无法应对新出现的严峻挑战，多核架构的控制芯片应运而生。双核架构芯片

发表于 04-19 14:46 •8418次阅读

交换机芯片架构的演变

交换机芯片架构的演变是随着网络技术的发展和数据处理需求的增长而逐步推进的。

发表于 03-26 15:03 •801次阅读

交换芯片架构是什么意思交换芯片架构怎么工作

交换芯片架构是指交换芯片内部的设计和组织方式，包括其硬件组件、处理单元、内存结构、接口以及其他关键部分的布局和相互作用。交换芯片的架构决定了

发表于 03-22 16:45 •779次阅读

交换芯片架构设计

交换芯片的架构设计是网络设备性能和功能的关键。一个高效的交换芯片架构能够处理大量的数据流量，支持高速数据传输，并提供先进的网络功能。

发表于 03-21 16:28 •559次阅读

交换芯片架构设计

交换芯片架构设计是网络通信中的关键环节，它决定了交换机的性能、功能和扩展性。

发表于 03-18 14:12 •738次阅读

fpga芯片架构介绍

FPGA（现场可编程门阵列）芯片架构是一种高度灵活和可编程的集成电路架构，它以其独特的结构和功能，在现代电子系统中扮演着至关重要的角色。FPGA芯片

发表于 03-15 14:56 •785次阅读

AI芯片的技术原理与架构

人工神经网络模型 AI芯片的核心原理基于人工神经网络，其中芯片内部的处理单元模拟了生物神经元的工作机制。每一个处理单元能够独立进行复杂的数学运算，例如权重乘以输入信号并累加，形成神经元的激活输出。

发表于 03-12 11:27 •4140次阅读

苹果M3芯片是ARM架构吗

苹果M3芯片采用的是ARM架构。这种架构具有高效能和低功耗的特点，使得M3芯片在提供出色性能的同时，也能保持较低的能耗。

发表于 03-08 16:03 •2086次阅读

汽车ECU一般采用芯片架构？使用什么系统？

汽车ECU一般采用芯片架构，使用什么系统？

发表于 02-01 06:09

国内有哪些典型的risc-v架构的芯片？

国内如今比较流行的芯片中，能举几个这种架构的芯片吗？谢谢。

发表于 01-21 22:16

OPPO发布自研芯片软硬融合技术栈“潮汐架构”，同时宣布退出芯片领域

据了解，这一架构是OPPO与其合作伙伴联发科技深度协同开发的结果。其充分挖掘芯片底层潜能，实现异构计算单元的高效动态调度。

发表于 01-09 09:26 •783次阅读

搜索历史

新的芯片架构和技术

评论