根据计算模式,人工智能核心计算芯片的发展分为两个方向:一个是利用人工神经网络从功能层面模仿大脑的能力,其主要产品就是通常的CPU、GPU、FPGA及专用定制芯片ASIC。另一个神经拟态计算则是从结构层面去逼近大脑,其结构还可进一步分为两个层次,一是神经网络层面,与之相应的是神经拟态架构和处理器,如IBM的TrueNorth芯片,这种芯片把数字处理器当作神经元,把内存作为突触。与传统冯诺依曼结构不同,它的内存、CPU和通信部件完全集成在一起,因此信息的处理完全在本地进行,克服了传统计算机内存与CPU之间的瓶颈。同时神经元之间可以方便快捷地相互沟通,只要接收到其他神经元发过来的脉冲(动作电位),这些神经元就会同时做动作。二是神经元层面,与之相应的是元器件层面的创新。如IBM苏黎世研究中心宣布制造出世界上首个人造纳米尺度随机相变神经元,可实现高速无监督学习。
目前,AI芯片虽然在某些具体任务上可以大幅超越人的能力,但在通用性、适应性上相较于人类智能还有很大差距,大多数仍处于对特定算法的加速阶段。从短期来看,以异构计算(多种组合方式)为主来加速各类应用算法的落地(看重能效比、性价比、可靠性);从中期来看,要发展自重构、自学习、自适应的芯片来支持算法的演进和类人的自然智能;从长期来看,则是朝着通用AI芯片的方面发展。
“通用AI芯片”是AI芯片皇冠上的明珠。它最理想化的方式是淡化人工干预(如限定领域、设计模型、挑选训练样本、人工标注等)的通用智能芯片,必须具备可编程性、架构的动态可变性、高效的架构变换能力或自学习能力、高计算效率、高能量效率、应用开发简洁、低成本和体积小等特点。就目前而言,实现通用AI的主要直面两大挑战:一是通用性(算法和架构),二是实现的复杂度。通用AI芯片的复杂度来自于任务的多样性和对自学习、自适应能力的支持。因此,通用AI芯片的发展方向不会是一蹴而就地采用某一种芯片来解决问题,因为理论模型和算法尚未完善。最有效的方式是先用一个多种芯片设计思路组合的灵活的异构系统来支持,各取所长,取长补短。一旦架构成熟,就可以考虑设计SoC来在一个芯片上支持通用AI。
从短期来看,很难期待出现像CPU那样的AI通用算法芯片,AI杀手级应用还没出现,未来还有很长一段路要走。但必须承认的是,AI芯片是人工智能技术发展过程中不可逾越的关键阶段。无论哪种AI算法,最终的应用必然通过芯片来实现。目前,AI算法都有各自长处和短板,必须给它们设定一个合适的应用边界,才能最好地发挥它们的作用。因此,确定应用领域就成为了发展AI芯片的重要前提。
在应用方面,“无行业不AI”似乎正在成为主旋律,无论是人脸识别、语音识别、机器翻译、视频监控,还是交通规划、无人驾驶、智能陪伴、舆情监控、智慧农业等,人工智能似乎涵盖了人类生产生活的方方面面。然而,是所有的应用都需要人工智能吗?我们希望人工智能解决哪些实际的问题?什么才是AI的“杀手级”应用?这些问题目前依然等待答案。但对于芯片从业者而言,当务之急是研究芯片架构问题。从感知、传输到处理,再到传输、执行,这是AI芯片的一个基本逻辑。研究者需要利用软件系统、处理器等去模仿。软件是实现智能的核心,芯片是支撑智能的基础。
从芯片发展的大趋势来看,目前尚处于AI芯片发展的初级阶段,无论是科研还是产业应用都有巨大的创新空间。从确定算法、领域的AI加速芯片向具备更高灵活性、适应性的智能芯片发展是科研发展的必然方向。神经拟态芯片技术和可重构计算芯片技术允许硬件架构和功能随软件变化而变化,实现以高能效比支持多种智能任务,在实现AI功能时具有独到的优势,具备广阔的前景。
虽然AI芯片目前还不是特别智能,但它们绝对很聪明,而且很有可能在不久的将来变得更加智能。这些芯片将继续利用半导体加工、计算机架构和SoC设计方面的先进技术,以提高处理能力,支持下一代AI算法。与此同时,新的AI芯片将继续需要先进的存储系统和片上互连架构,以便为新的专有硬件加速器提供深度学习所需的源源不断的数据流。相信,未来十年将是AI芯片发展的重要时期,有望在架构和设计理念取得巨大的突破。
具体到不同计算场景和不同计算需求,云端和终端芯片的架构设计趋势将朝不同的方向发展,而软件定义芯片已经成为灵活计算领域的主流。
一、云端训练和推断:大存储、高性能、可伸缩
虽然训练和推断在数据精度、架构灵活和实时性要求上有一定的差别,但它们在处理能力(吞吐率)、可伸缩可扩展能力以及功耗效率上具有类似的需求。
NVIDA的V100GPU和Google的CloudTPU是目前云端商用AI芯片的标杆。
(CloudTPU的机柜包括64个TPU2,能够为机器学习的训练任务提供11.5PFLOPS的处理能力和4TB的HBM存储器。这些运算资源还可以灵活地分配和伸缩,能够有效支持不同的应用需求。)
从NVIDA和Goolge的设计实践我们可以看出云端AI芯片在架构层面,技术发展呈现三大特点和趋势:
(1)存储的需求(容量和访问速度)越来越高。未来云端AI芯片会有越来越多的片上存储器(比如Graphcore公司就在芯片上实现的300MB的SRAM),以及能够提供高带宽的片外存储器(HBM2和其它新型封装形式)。
(2)处理能力推向每秒千万亿次(PetaFLOPS),并支持灵活伸缩和部署。对云端AI芯片来说,单芯片的处理能力可能会达到PetaFLOPS的水平。实现这一目标除了要依靠CMOS工艺的进步,也需要靠架构的创新。比如在Google第一代TPU中,使用了脉动阵列(SystolicArray)架构,而在NVIDA的V100GPU中,专门增加了张量核来处理矩阵运算。
(3)专门针对推断需求的FPGA和ASIC。推断和训练相比有其特殊性,更强调吞吐率、能效和实时性,未来在云端很可能会有专门针对推断的ASIC芯片(Google的第一代TPU也是很好的例子),提供更好的能耗效率并实现更低的延时。
二、边缘设备:把效率推向极致。
相对云端应用,边缘设备的应用需求和场景约束要复杂很多,针对不同的情况可能需要专门的架构设计。抛开需求的复杂性,目前的边缘设备主要是执行“推断”。衡量AI芯片实现效率的一个重要指标是能耗效率--TOPs/W,这也成为很多技术创新竞争的焦点。在ISSCC2018会议上,就出现了单比特能效达到772TOPs/W的惊人数据。
在提高推断效率和推断准确率允许范围内的各种方法中,降低推断的量化比特精度是最有效的方法。此外,提升基本运算单元(MAC)的效率可以结合一些数据结构转换来减少运算量,比如通过快速傅里叶变换(FFT)变换来减少矩阵运算中的乘法;还可以通过查表的方法来简化MAC的实现等。
另一个重要的方向是减少对存储器的访问,这也是缓解冯·诺伊曼“瓶颈”问题的基本方法。利用这样的稀疏性特性,再有就是拉近运算和存储的距离,比如把神经网络运算放在传感器或者存储器中。
三、软件定义芯片
对于复杂的AI任务,甚至需要将多种不同类型的AI算法组合在一起。即使是同一类型的AI算法,也会因为具体任务的计算精度、性能和能效等需求不同,具有不同计算参数。因此,AI芯片必须具备一个重要特性:能够实时动态改变功能,满足软件不断变化的计算需求,即“软件定义芯片”。
可重构计算技术允许硬件架构和功能随软件变化而变化,具备处理器的灵活性和专用集成电路的高性能和低功耗,是实现“软件定义芯片”的核心,被公认为是突破性的下一代集成电路技术。清华大学微电子所设计的AI芯片(代号Thinker),采用可重构计算架构,能够支持卷积神经网络、全连接神经网络和递归神经网络等多种AI算法。
Thinker芯片通过三个层面的可重构计算技术,来实现“软件定义芯片”,最高能量效率达到了5.09TOPS/W:
1。计算阵列重构:Thinker芯片每个计算单元可以根据算法所需要的基本算子不同而进行功能重构,支持计算阵列的按需资源划分以提高资源利用率和能量效率。
2。存储带宽重构:Thinker芯片的片上存储带宽能够根据AI算法的不同而进行重构。存储内的数据分布会随着带宽的改变而调整,以提高数据复用性和计算并行度,提高了计算吞吐和能量效率。
3。数据位宽重构:为了满足AI算法多样的精度需求,Thinker芯片的计算单元支持高低(16/8比特)两种数据位宽重构。高比特模式下计算精度提升,低比特模式下计算单元吞吐量提升进而提高性能。
采用可重构计算技术之后,软件定义的层面不仅仅局限于功能这一层面。算法的计算精度、性能和能效等都可以纳入软件定义的范畴。
四、新兴存储技术打开新思路
《白皮书》第六章主要介绍对AI芯片至关重要的存储技术,包括传统存储技术的改进和基于新兴非易失存储(NVM)的存储器解决方案。
可以预见的是,从器件到体系结构的全面创新或将赋予AI芯片更强的能力。近期,面向数字神经网络的加速器(GPU、FPGA和ASIC)迫切需要AI友好型存储器;中期,基于存内计算的神经网络可以为规避冯·诺依曼瓶颈问题提供有效的解决方案;最后,基于忆阻器的神经形态计算可以模拟人类的大脑,是AI芯片远期解决方案的候选之一。
1。AI友好型存储器
上图显示了新兴存储技术中带宽和容量的快速增长。新兴的NVM由于其相对较大的带宽和迅速增长的容量,可以在AI芯片的存储技术中发挥至关重要的作用。对于嵌入式应用,NVM的片上存储器也可以提供比传统NVM更好的存取速度和低功耗,可在非常有限的功率下工作,这对于物联网边缘设备上的AI芯片特别具有吸引力。
2。片外存储器
3D集成已经被证明是增加商业存储器的带宽和容量的有效策略,其可以通过使用从底部到顶部的硅通孔(TSV)技术,堆叠多个管芯或者单片制造的方法来完成。DRAM的代表作品包括HBM和混合存储器立方体(HMC)。
上图显示了NVIDA的GPU产品与HBM集成的AI应用程序。对于NAND闪存,3DNAND正在深入研究。最近,三星已经开发出96层3DNAND。
3。片上(嵌入型)存储器
由于能够连接逻辑和存储器电路,并且与逻辑器件完全兼容,SRAM是不可或缺的片上存储器,其性能和密度不断受益于CMOS的尺寸缩放。其易失性使得芯片上或芯片外的非易失性存储器成为必须。当前主要和新兴存储器的器件指标如下:
此外,自旋力矩传输存储器(STT-MRAM)由于其高耐久性和高速度被认为是DRAM的替代品。
评论
查看更多