AI进入爆发期,千亿芯片市场空间
AI沉浮数十载,“预期-失望-进步-预期”周期中破浪前行。AI(人工智能)概念诞生于1956年达特茅斯(Dartmouth)会议,1959年划时代论文《计算机器与智能》中提出AI领域著名的图灵测试;此后算法和研究不断迭代,经历1956-1974年的推理黄金时代、1974-1980年的第一次瓶颈期、1980-1987年专家系统发展、1987-1993年的第二次寒冬及1993-2010年学习期复苏,之后跟随大数据、云计算兴起,算法模型和并行运算的结合双轮驱动人工智能发展,目前进入爆发期,表现在三个层面:
(1)生态基础层面:移动互联网、物联网的快速发展为人工智能产业奠定生态基础;
(2)软件层面:已有数学模型被重新发掘,新兴合适算法被发明,重要成果包括图模型、图优化、神经网络、深度学习、增强学习等;
(3)硬件层面:摩尔定律助力,服务器强大的计算能力尤其是并行计算单元的引入使人工智能训练效果显著提速,除原有CPU外,GPU、FPGA、ASIC(包括TPU、NPU等AI专属架构芯片)各种硬件被用于算法加速,提速人工智能在云端服务器和终端产品中的应用和发展。
技术体系分层,核心处理芯片成基础层关键。人工智能技术体系分为基础层、技术层与应用层。基础层主要包括人工智能核心处理芯片和大数据,是支撑技术层的图像识别、语音识别等人工智能算法的基石。人工智能算法需要用到大量的卷积等特定并行运算,常规处理器(CPU)在进行这些运算时效率较低,适合AI的核心处理芯片在要求低延时、低功耗、高算力的各种应用场景逐渐成为必须。核心处理芯片和大数据,成为支撑人工智能技术发展的关键要素。
根据赛迪咨询发布报告,2016年全球人工智能市场规模达到293亿美元。人工智能芯片是人工智能市场中重要一环,根据英伟达,AMD,赛灵思,谷歌等相关公司数据,我们测算2016年人工智能芯片市场规模将达到23.88亿美元,约占全球人工智能市场规模8.15%,而到2020年人工智能芯片市场规模将达到146.16亿美元,约占全球人工智能市场规模12.18%。人工智能芯片市场空间极其广阔。
芯片承载算法,是竞争的制高点
人工智能的基础是算法,深度学习是目前最主流的人工智能算法。深度学习又叫深度神经网络(DNN:Deep Neural Networks),从之前的人工神经网络(ANN:Artificial Neural Networks)模型发展而来。这种模型一般采用计算机科学中的图模型来直观表达,深度学习的“深度”便指的是图模型的层数以及每一层的节点数量。神经网络复杂度不断提升,从最早单一的神经元,到2012年提出的AlexNet(8个网络层),再到2015年提出的ResNET(150个网络层),层次间的复杂度呈几何倍数递增,对应的是对处理器运算能力需求的爆炸式增长。深度学习带来计算量急剧增加,对计算硬件带来更高要求。我们下文首先对深度学习算法进行简单分析,阐述其和AI芯片的关系。
深度学习算法分“训练”和“推断”两个过程。简单来讲,人工智能需要通过以大数据为基础,通过“训练”得到各种参数,把这些参数传递给“推断”部分,得到最终结果。
“训练”和“推断”所需要的神经网络运算类型不同。神经网络分为前向计算(包括矩阵相乘、卷积、循环层)和后向更新(主要是梯度运算)两类,两者都包含大量并行运算。“训练”所需的运算包括“前向计算+后向更新”;“推断”则主要是“前向计算”。一般而言训练过程相比于推断过程计算量更大。一般来说,云端人工智能硬件负责“训练+推断”,终端人工智能硬件只负责“推断”。
“训练”需大数据支撑并保持较高灵活性,一般在“云端”(即服务器端)进行。人工智能训练过程中,顶层上需要有一个海量的数据集,并选定某种深度学习模型。每个模型都有一些内部参数需要灵活调整,以便学习数据。而这种参数调整实际上可以归结为优化问题,在调整这些参数时,就相当于在优化特定的约束条件,这就是所谓的“训练”。云端服务器收集用户大数据后,依靠其强大的计算资源和专属硬件,实现训练过程,提取出相应的训练参数。由于深度学习训练过程需要海量数据集及庞大计算量,因此对服务器也提出了更高的要求。未来云端AI服务器平台需具备相当数据级别、流程化的并行性、多线程、高内存带宽等特性。
“推断”过程可在云端(服务器端)进行,也可以在终端(产品端)进行。等待模型训练完成后,将训练完成的模型(主要是各种通过训练得到的参数)用于各种应用场景(如图像识别、语音识别、文本翻译等)。“应用”过程主要包含大量的乘累加矩阵运算,并行计算量很大,但和“训练”过程比参数相对固化,不需要大数据支撑,除在服务器端实现外,也可以在终端实现。“推断”所需参数可由云端“训练”完毕后,定期下载更新到终端。
传统CPU算力不足,新架构芯片支撑AI成必须。核心芯片决定计算平台的基础架构和发展生态,由于AI所需的深度学习需要很高的内在并行度、大量浮点计算能力以及矩阵运算,基于CPU的传统计算架构无法充分满足人工智能高性能并行计算(HPC)的需求,因此需要发展适合人工智能架构的专属芯片。
专属硬件加速是新架构芯片发展主流。目前处理器芯片面向人工智能硬件优化升级有两种发展路径:(1)延续传统计算架构,加速硬件计算能力:以GPU、FPGA、ASIC(TPU、NPU等)芯片为代表,采用这些专属芯片作为辅助,配合CPU的控制,专门进行人工智能相关的各种运算;(2)彻底颠覆传统计算架构,采用模拟人脑神经元结构来提升计算能力,以IBM TrueNorth芯片为代表,由于技术和底层硬件的限制,第二种路径尚处于前期研发阶段,目前不具备大规模商业应用的可能性。从技术成熟度和商业可行性两个角度,我们判断使用AI专属硬件进行加速运算是今后五年及以上的市场主流。
云端终端双场景,三种芯片显神通
我们把人工智能硬件应用场景归纳为云端场景和终端场景两大类。云端主要指服务器端,包括各种共有云、私有云、数据中心等业务范畴;终端主要指包括安防、车载、手机、音箱、机器人等各种应用在内的移动终端。由于算法效率和底层硬件选择密切相关,“云端”(服务器端)和“终端”(产品端)场景对硬件的需求也不同。我们对目前主要的AI芯片进行了列表梳理。
除CPU外,人工智能目前主流使用三种专用核心芯片,分别是GPU,FPGA,ASIC。专业术语比较枯燥,打个形象点的比方。如果把AI运算比喻成游泳运动,CPU,GPU,FPGA,ASIC相当于四类运动员:(1)CPU是身体素质很好的体校学员,会游泳,参赛比较费劲;(2)GPU相当于十项全能选手,本身就会游泳,直接可以上场参赛;(3)FPGA相当于可以变形的机器人选手,需预先变形后下水竞争,成绩取决于编程效果;(4)ASIC相当于长时间培养的专业游泳选手,游得最快,但培养一个优秀专业运动员需要较长时间。
下面分别介绍。
GPU:先发制人的“十项全能”选手,云端终端均拔头筹。GPU(Graphics Processing Unit)又称图形处理器,之前是专门用作图像运算工作的微处理器。相比CPU,GPU由于更适合执行复杂的数学和几何计算(尤其是并行运算),刚好与包含大量的并行运算的人工智能深度学习算法相匹配,因此在人工智能时代刚好被赋予了新的使命,成为人工智能硬件首选,在云端和终端各种场景均率先落地。目前在云端作为AI“训练”的主力芯片,在终端的安防、汽车等领域,GPU也率先落地,是目前应用范围最广、灵活度最高的AI硬件。
FPGA:“变形金刚”,算法未定型前的阶段性最佳选择。FPGA(Field-ProgrammableGate Array)即现场可编程门阵列,是一种用户可根据自身需求进行重复编程的“万能芯片”。编程完毕后功能相当于ASIC(专用集成电路),具备效率高、功耗低的特点,但同时由于要保证编程的灵活性,电路上会有大量冗余,因此成本上不能像ASIC做到最优,并且工作频率不能太高(一般主频低于500MHz)。FPGA相比GPU具有低功耗优势,同时相比ASIC具有开发周期快,更加灵活编程等特点。FPGA于“应用爆发”与“ASIC量产”夹缝中寻求发展,是效率和灵活性的较好折衷,“和时间赛跑”,在算法未定型之前具较大优势。在现阶段云端数据中心业务中,FPGA以其灵活性和可深度优化的特点,有望继GPU之后在该市场爆发;在目前的终端智能安防领域,目前也有厂商采用FPGA方案实现AI硬件加速。
ASIC:“专精职业选手”,专一决定效率,AI芯片未来最佳选择。ASIC(Application Specific Integrated Circuit)即专用集成电路,本文中特指专门为AI应用设计、专属架构的处理器芯片。近年来涌现的类似TPU、NPU、VPU、BPU等令人眼花缭乱的各种芯片,本质上都属于ASIC。无论是从性能、面积、功耗等各方面,AISC都优于GPU和FPGA,长期来看无论在云端和终端,ASIC都代表AI芯片的未来。但在AI算法尚处于蓬勃发展、快速迭代的今天,ASIC存在开发周期较长、需要底层硬件编程、灵活性较低等劣势,因此发展速度不及GPU和FPGA。
下面两章我们分别仔细分析云端和终端两种应用场景下,这三种专属AI芯片的应用现状、发展前景及可能变革。
云端场景:GPU生态领先,未来多种芯片互补共存
核心结论: GPU、TPU等适合并行运算的处理器未来成为支撑人工智能运算的主力器件,既存在竞争又长期共存,一定程度可相互配合;FPGA有望在数据中心业务承担较多角色,在云端主要作为有效补充存在;CPU会“变小”,依旧作为控制中心。未来芯片的发展前景取决于生态,有望统一在主流的几个软件框架下,形成云CPU+GPU/TPU+FPGA(可选)的多芯片协同场景。
依托大数据,科技巨头不同技术路径布局AI云平台
基于云平台,各大科技巨头大力布局人工智能。云计算分为三层,分别是Infrastructure(基础设施)-as-a-Service(IaaS),Platform(平台)-as-a-Service(Paas),Software(软件)-as-a-Service(Saas)。基础设施在最下端,平台在中间,软件在顶端。IaaS公司提供场外服务器,存储和网络硬件。大数据为人工智能提供信息来源,云计算为人工智能提供平台,人工智能关键技术是在云计算和大数据日益成熟的背景下取得了突破性进展。目前各大科技巨头看好未来人工智能走向云端的发展态势,纷纷在自有云平台基础上搭载人工智能系统,以期利用沉淀在云端的大数据挖掘价值。
千亿美元云服务市场,AI芯片发展潜力巨大
千亿美元云服务市场,云计算硬件市场规模巨大。云计算的市场规模在逐渐扩大。据Gartner 的统计,2015年以IaaS、PaaS和SaaS为代表的典型云服务市场规模达到522.4亿美元,增速20.6%,预计2020年将达到1435.3亿美元,年复合增长率达22%。其中IaaS公司到2020年市场空间达到615亿美元,占整个云计算市场达43%,云计算硬件市场空间巨大,而云计算和人工智能各种加速算法关系密切,未来的云计算硬件离不开AI芯片加速。
云端AI芯片发展潜力巨大。根据英伟达与AMD财务数据,我们预计GPU到2020年在数据中心业务中将达到约50亿美元市场规模。同时根据赛灵思与阿尔特拉等FPGA厂商,我们预计2020年FPAG数据中心业务将达到20亿美元。加上即将爆发的ASIC云端市场空间,我们预计到2020年云端AI芯片市场规模将达到105.68亿美元,AI芯片在云端会成为云计算的重要组成部分,发展潜力巨大。
云端芯片现状总结:GPU领先,FPGA随后,ASIC萌芽
AI芯片在云端基于大数据,核心负责“训练”。云端的特征就是“大数据+云计算”,用户依靠大数据可进行充分的数据分析和数据挖掘、提取各类数据特征,与人工智能算法充分结合进行云计算,从而衍生出服务器端各种AI+应用。AI芯片是负责加速人工智能各种复杂算法的硬件。由于相关计算量巨大,CPU架构被证明不能满足需要处理大量并行计算的人工智能算法,需要更适合并行计算的芯片,所以GPU、FPGA、TPU等各种芯片应运而生。AI芯片在云端可同时承担人工智能的“训练”和“推断”过程。
云端芯片现状:GPU占据云端人工智能主导市场,以TPU为代表的ASIC目前只运用在巨头的闭环生态, FPGA在数据中心业务中发展较快。
GPU应用开发周期短,成本相对低,技术体系成熟,目前全球各大公司云计算中心如谷歌、微软、亚马逊、阿里巴巴等主流公司均采用GPU进行AI计算;谷歌除大量使用GPU外,努力发展自己的AI专属的ASIC芯片。今年5月推出的TPU与GPU相比耗电量降低60%,芯片面积下降40%,能更好的满足其庞大的AI算力要求,但由于目前人工智能算法迭代较快,目前TPU只供谷歌自身使用,后续随着TensorFlow的成熟,TPU也有外供可能,但通用性还有很长路要走。
百度等厂商目前在数据中心业务中也积极采用FPGA进行云端加速。FPGA可以看做从GPU到ASIC重点过渡方案。相对于GPU可深入到硬件级优化,相比ASIC在目前算法不断迭代演进情况下更具灵活性,且开发时间更短。AI领域专用架构芯片(ASIC)已经被证明可能具有更好的性能和功耗,有望成为未来人工智能硬件的主流方向。
云端GPU:云端AI芯片主流,先发优势明显
1.1 发展现状:GPU天然适合并行计算,是目前云端AI应用最广的芯片
GPU目前云端应用范围最广。目前大量涉足人工智能的企业都采用GPU进行加速。根据英伟达官方资料,与英伟达合作开发深度学习项目的公司2016年超过19000家,对比2014年数量1500 家。目前百度、Google、Facebook 和微软等IT巨头都采用英伟达的GPU对其人工智能项目进行加速,GPU目前在云端AI深度学习场景应用最为广泛, 由于其良好的编程环境带来的先发优势,预计未来仍将持续强势。
GPU芯片架构脱胎图像处理,并行计算能力强大。GPU(Graphics Processing Unit),又称视觉处理器,是之前应用在个人电脑、工作站、游戏机、移动设备(如平板电脑、智能手机等)等芯片内部,专门用作图像运算工作的微处理器。与CPU类似可以编程,但相比CPU更适合执行复杂的数学和几何计算,尤其是并行运算。内部具有高并行结构(highly paralle lstructure),在处理图形数据和复杂算法方面拥有比CPU更高的效率。
GPU较CPU结构差异明显,更适合并行计算。对比GPU和CPU在结构上的差异,CPU大部分面积为控制器和寄存器,GPU拥有更多的ALU(Arithmetic Logic Unit,逻辑运算单元)用于数据处理,而非数据高速缓存和流控制,这样的结构适合对密集型数据进行并行处理。CPU执行计算任务时,一个时刻只处理一个数据,不存在真正意义上的并行,而GPU具有多个处理器核,同一时刻可并行处理多个数据。
与CPU相比,GPU在AI领域的性能具备绝对优势。深度学习在神经网络训练中,需要很高的内在并行度、大量的浮点计算能力以及矩阵运算,而GPU可以提供这些能力,并且在相同的精度下,相对传统CPU的方式,拥有更快的处理速度、更少的服务器投入和更低的功耗。在2017年5月11日的加州圣何塞GPU技术大会上,NVIDIA就已经发布了Tesla V100。这个目前性能最强的GPU运算架构Volta采用台积电12nm FFN制程并整合210亿颗电晶体,在处理深度学习的性能上等同于250颗CPU。
1.2 生态格局:英伟达垄断GPU市场
抓住人工智能契机,英伟达垄断GPU市场。英伟达目前占据全球GPU行业的市场份额超过70%,远超AMD等竞争对手。GPU作为英伟达公司的核心产品占据其84%的收入份额。英伟达应用领域涵盖视频游戏、电影制作、产品设计、医学诊断以及科学研究等各个门类。主营产品包括游戏显卡GeForceGPU,用于深度学习计算的Tesla GPU,以及为智能汽车处理设计Tegra 处理器等。得益于人工智能发展,英伟达营收利润不断攀升,成为人工智能产业最大受益公司之一。
编程环境良好,是英伟达GPU垄断云端AI硬件主流的重要原因。由于广泛应用于图形图像处理,GPU具备相对良好的编程环境和使用其编程的软件工程师人群,因此成为目前最主流的深度学习硬件。英伟达公司发布的CUDA运算平台,是专门针对开发者提供的一种并行计算平台。开发者能通过CUDA平台使用软件语言很方便得开发英伟达GPU实现运算加速。由于CUDA平台之前被广泛认可和普及,积累了良好的编程环境,目前应用在人工智能领域、可进行通用计算的GPU市场基本被英伟达垄断。
云端数据中心及车载等AI相关领域,成为英伟达业务成长新引擎。英伟达公司2017财年全年营收创下69.1亿美元纪录,较上2016财年的50.1亿美元增长38%。按照终端用户应用领域拆分,英伟达主营业务拆分为游戏、数据中心、专业可视化、汽车业务。游戏业务2017财年营收达到40.6亿美元,占总营收58.8%,同比增长44.1%;数据中心和汽车的份额分别占总营收12%和7%,其中数据中心增长同比达到144.8%,汽车增长同比达到52.2%。公司从2017财年Q1季度到2018财年Q1季度,主营构成变动很大,数据中心业务占比11%增长至21%,成长速度迅猛,成为英伟达业务增长新引擎。
1.3 未来趋势:从开环到专精,未来GPU在云端市场继续强势
GPU不断适应AI的进化路径,未来进化方向:从“开环”到“专精”。目前云端应用范围最广、效率最高的AI芯片仍是GPU。但AI芯片并非只有GPU一种路径,ASIC与FPGA相关厂商相继推出针对人工智能计算的芯片。谷歌推出ASIC芯片TPU2代,性能达到45 TFLOPS(一个TFLOPS等于每秒万亿次的浮点运算),而功耗仅仅40W。国内公司寒武纪推出的ASIC芯片DaDianNao性能达到5.585 TFLOPS,功耗仅为15.97W。众多专属ASIC芯片的推出,可能威胁到未来GPU的霸主地位。英伟达显然意识到这一点,不断推动技术创新,推出性能更加强劲、更适合AI运算的产品,不断对其GPU进行深度优化,向更专精AI运算方向努力。2017年5月,英伟达发布旗舰芯片Tesla V100,对比上一代TeslaP100,最大变化就是增加了与深度学习高度相关的Tensor单元,Tensor性能可以达到120TFLOPS。GPU不断适应AI的进化路径,从从“开环通用”到“AI专精”方向进化,性能不断提高,加之生态环境的先发优势,预计未来2~3年,GPU仍是人工智能云端市场最重要的组成部分。
云端ASIC:以TPU为代表,性能取胜,争夺未来AI制高点
2.1发展趋势:ASIC—未来人工智能专属核心芯片
ASIC目前在AI方向上的发展尚处于早期。ASIC全称专用集成电路,是应针对特定场景、需求、算法而设计的专用芯片。目前人工智能类 ASIC 的发展仍处于早期。根本原因是目前人工智能算法尚未定型,迭代较快,而ASIC设计一旦设计制造完成后功能就基本固定,相对GPU、FPGA而言不够灵活,且开发周期长、初期成本高。人工智能ASIC芯片公司需要既具备人工智能算法框架,又擅长芯片研发,进入门槛较高。
ASIC性能、能耗和大规模量产成本均显著优于GPU和FPGA,是未来云端人工智能重要发展方向。针对特定云端应用,作为全定制设计的ASIC芯片,性能和能耗都要优于FPGA 和 GPU。谷歌最近研发出人工智能ASIC TPU,和传统的GPU相比性能提升15倍,更是CPU 浮点性能的30倍。由于ASIC兼具性能和功耗双重优点,加之大规模量产条件下ASIC单片成本大幅下降,我们判断其定会成为人工智能未来的核心芯片。
2.2生态格局:谷歌TPU为目前自用最强ASIC,期待生态完善后外供
TPU:目前谷歌自用最强ASIC芯片,期待生态完善后外供。随着 AlphaGo 横扫人类顶尖棋手,谷歌在AlphaGo 中应用的 ASIC 芯片TPU受到业界热捧,谷歌于 2016年 Google I/O 大会上正式介绍第一代 TPU 产品,在今年5 月的开发者 I/O 大会上, Google 正式公布了第二代 TPU,又称为 Cloud TPU,其最大的特色在于相比初代TPU, 它既可以用于训练神经网络,又可以用于推理,这既为推理阶段进行了优化,也为训练阶段进行了优化。在性能方面,第二代 TPU 可以达到 45 TFLOPs 的浮点性能。和传统的 GPU 相比提升 15 倍,更是CPU浮点性能的30倍。生态方面,目前TPU仅支持自身的开源 TensorFlow 机器学习框架和生态系统。这和生态系统非常完善的GPU相比有一定的不足。不过谷歌也意识到了这个不足,为了弥补生态上面的不足,谷歌提出了TensorFlow Research Cloud计划,为愿意分享自己工作成果的研究人员免费提供1000个Cloud TPU。相信随着TPU生态的不断完善,性能更加强悍的TPU将成为云端人工智能的未来。
3.云端FGPA:云端的有效补充,低延时场景具备充分优势
3.1 会变形的万能芯片,未来云端AI的最好补充
FPGA可编程,灵活性高。FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、CPLD等可编程器件的基础上进一步发展的产物。FPGA内部包含大量重复的IOB(输入输出模块)、CLB(可配置逻辑块,内部是基本的逻辑门电路,与门、或门等)和布线信道等基本单元。FPGA在出厂时是“万能芯片”,用户可根据自身需求,用硬件描述语言(HDL)对FPGA的硬件电路进行设计;每完成一次烧录,FPGA内部的硬件电路就有了确定的连接方式,具有了一定的功能。FPGA可随意定制内部逻辑的阵列,并且可以在用户现场进行即时编程,以修改内部的硬件逻辑,从而实现任意逻辑功能。
3.2 核心优势:在云端算法性能高、功耗和延迟低
FPGA无指令、无共享内存,并行计算效率高。CPU、GPU都属于冯·诺依曼结构,需要指令译码执行、共享内存,是传统意义上的“软件编程”。而FPGA每个逻辑单元的功能在重编程(烧写)时就已经确定,不需要指令,属于“硬件编程”;FPGA每个逻辑单元与周围逻辑单元的连接在重编程时就已经确定,也不需要通过共享内存来通信。FPGA利用硬件并行的优势,打破顺序执行的模式,因此在每个时钟周期内完成更多的处理任务,执行效率大幅提高。
FPGA相对CPU、GPU能耗优势明显。一方面,由于是直接烧录成专用电路,FPGA没有存取指令和指令译码操作,因此功耗优势明显。Intel的CPU指令译码就占整个芯片能耗的50%;在GPU里面,取指令和译码也消耗了10%~20%的功耗。另一方面,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA主频一般在500MHz以下。微软研究院2010年分析了CPU、GPU以及FPGA对矩阵运算的底层库相同运算的加速性能以及能耗,对比执行GaxPy算法(一种常用矩阵算法)每次迭代的时间和能耗,结论是FPGA、GPU相对于CPU的加速比优势明显,与此同时FPGA的能耗仅是CPU与GPU的8%左右。
对于计算/通信密集型任务,FPGA比CPU、GPU延迟低。FPGA同时可拥有流水线并行和数据并行,而GPU几乎只有数据并行(流水线深度受限)。当任务是逐个而非成批到达的时候,流水线并行比数据并行可实现更低的延迟,FPGA比GPU天生有延迟方面的优势。对于通信密集型任务,FPGA相比CPU、GPU的低延迟优势更明显。使用FPGA和ASIC等低延迟和高吞吐量的硬件,运行在网络的最低层,保证所有数据以安全及时的方式传输,能够提高网络可靠性并节省负载。
灵活性和效率的折衷,适应数据中心不断变化的算法。FPGA在数据中心最大的特点就在高吞吐的同时能做到低延时。FPGA内部的资源都是可以重配置的,因此它可以很容易进行数据并行和流水并行,且易于在数据并行和流水并行之间平衡。而GPU几乎只能做数据并行。与ASIC相比,FPGA的可编程性体现出很大的优势。现在数据中心的各种算法每时每刻都在更新变化,没有足够稳定的时间让ASIC完成长周期的开发。比如在一种神经网络模型出来之后开始把它做成ASIC,也许还未投片生产,这个神经网络模型已经被另一种神经网络模型所替代。另一方面,FPGA可以在不同的业务需求之间做平衡。比如说白天用于为搜索业务排序的机器;在晚上请求很少的情况下,可以将这些FPGA重新配置成离线数据分析的功能,提供对离线数据进行分析的服务。目前腾讯云和百度云都大量部署FPGA在数据中心的服务器用于加速。
可编程性会导致面积和功耗冗余,长期看在云端比终端应用更广泛。FPGA的工作模式,决定了需要预先布置大量门阵列以满足用户的设计需求,因此有“以面积换速度”的说法:使用大量的门电路阵列,消耗更多的FPGA内核资源,用来提升整个系统的运行速度。因此,FPGA的可编程性和灵活性必然会导致一定程度上的面积和功耗冗余,但很多场景中可编程性收益远高于冗余成本,这些场景往往在云端更多。因为终端只做“推理”,特定场景算法更为固定,成本要求也更高,因此FPGA在终端最终会被ASIC取代。
3.3 市场空间:紧随GPU受益云端数据中心市场爆发,2020年规模或达20亿美元
FPGA数据中心业务将紧随GPU爆发,预计未来5年潜在市场空间达20亿美元。据 Gartner 统计, 2014 年全球 FPGA 市场规模达到 50 亿美元,2015-2020 年的年均复合增长率为9%,到 2020 年将达到 84 亿美元。FPGA 高性能、低能耗以及可硬件编程的特点使其适用范围得以扩大。据Synergy Research Group数据,2016年底超大规模提供商运营的大型数据中心的数量已突破300个,预计到2018年大型数据中心将超过400个。数据中心的快速发展必然拉动FPGA市场增长,我们预计用于数据中心的FPGA市场规模在2020年将达到20亿美元。
数据中心“瑜亮之争”:既有GPU,还需FPGA?由于FPGA是硬件语言编程,需要耗费芯片设计工程师资源做上层软件算法的底层硬件的“影射”,加之目前性能、成本上综合来看还是GPU更好,所以GPU是目前数据中心主流。但未来FPGA在数据中心业务中前景光明,原因有两点:第一,云巨头企业本质上希望其算法优化从硬件底层起就可实现,而并非完全受控于英伟达GPU的编译和运行性能,为未来底层硬件的自身完全定制化(做自己的ASIC)做准备,所以部分云厂商愿意面向未来,在FPGA开发上投入成本;第二,FPGA功耗特性较GPU好很多,数据中心业务运算量巨大,未来必须考虑功耗问题,如下表所示,各型号FPGA功耗比都优于GPU。在算法逐步稳定以后,针对数据中心不同应用场景,FPGA的万能变形优势会逐步体现。
3.4 生态格局:两公司垄断,巨头并购凸显云端AI有效补充地位
Altera与Xilinx两公司垄断FPGA市场。目前全球 FPGA 市场主要被 Altera 和 Xilinx瓜分,合计占有近90%的市场份额,合计专利达到 6000 多项,剩余份额被 Lattice 和Microsemi 两家占据,合计共有超过 3000 项专利。技术专利的限制和漫长的开发周期使得 FPGA行业形成了很高的壁垒,这也进一步巩固了 Altera 和 Xilinx 两家公司的优势地位和盈利水平。
Intel收购Altera,看好FPGA在未来数据中心的核心价值。2014年6月,微软对外公布其针对数据处理的研发项目ProjectCatapult,研究结果显示,将FPGA应用于Intel服务器,后者性能可以提升10倍,处理效率提升30%以上,能耗也显著降低。2015年6月,Intel以167亿美元收购FPGA龙头公司Altera。Altera对于Intel的价值,核心在于数据中心业务。长久以来,Intel一直在PC、服务器、存储市场以及数据中心领域占据绝对优势地位。2017年一季度Intel数据中心业务收入同比增长6%至42亿美元,二季度收入同比增长9%至44亿美元,增长势头强劲。Altera FPGA技术结合IntelCPU制造技术,能够将CPU的复杂数据处理能力与FPGA的数据并行处理能力结合,未来在数据中心应用领域显现出强强联合的优势,构建未来云端人工智能的坚实基础。
互联网巨头云端积极部署包含FPGA的数据中心,未来可期。由于FPGA在数据中心的独特优势,亚马逊、微软等企业在数据中心均纷纷部署FPGA。国内,腾讯云在年初部署了首个FPGA云服务器。2017年7月,百度云也宣布在其公有云服务器中部署基于赛灵思FPGA的应用加速服务。国内外主流云服务企业纷纷把目光聚焦在了FPGA上,这显然不是巧合,这说明整个云服务行业似乎已经对FPGA在高性能计算上的重要性上达成了一致,FPGA在云端特别是底层的数据中心业务前景可期。
云端AI芯片未来:各自进化,走向融合,生态定义未来
云端不同的AI芯片在向彼此学习和进化。一方面,以英伟达为代表的GPU从通用到精进,不断优化其GPU架构,使其针对人工智能算法进行优化,向更加专业化的人工智能领域扩展。另一方面,以谷歌TPU为代表的云端ASIC,为了满足灵活性和通用性,也设计了众多指令集同时支持训练和推理,未来有望实现从闭环到开环的拓展。谷歌CEO在2017年5月的开发者大会上表示,谷歌将免费开放 1000 台 Cloud TPU 供开发者和研究人员使用。相信随着TensorFlow的框架完善、谷歌TPU自身的架构优化、灵活性加强与通用性的完善,我们预计未来TPU芯片也会从谷歌内部使用改为外供给其他云端服务器厂商。
云端有望形成“CPU+GPU/TPU+FPGA”的多芯片融合态势。CPU继续作为服务器的控制核心,GPU和ASIC(TPU等)将成为人工智能云端的运算主力,FPGA在延时要求高的计算/通信密集型任务中作为有效补充,未来有望形成CPU+GPU/TPU+FPGA多芯片融合共存的发展态势。云计算巨头纷纷推出多芯片融合的云端平台。我们观察到,2017年微软在其最新上线的Azure云平台中部署FPGA,配合原有的英特尔 CPU 和英伟达Tesla K80 GPU,实现性能的最大化提升。2017年3月腾讯云宣布,已形成包含CPU+GPU+FPGA全矩阵AI基础设施计算平台。
生态完善度或决定AI芯片市场未来
上层生态完善度或将决定AI芯片市场未来。完善的开源生态帮助AI核心芯片拥有更强的用户粘性,帮助保持市场空间。或将决定AI芯片市场未来。AI芯片生态主要包括AI开源平台支持与开发环境支持两种生态。
目前开源平台众多,江湖未一统。AI开源平台是一个深度学习的工具箱,用户可以通过此开放平台,基于底层计算芯片运行其算法系统。目前AI开发人员主要是利用开源平台进行算法优化,因此AI硬件只有具备支持主流开源平台的特性,才能形成稳定的客户群体,牢牢占据市场空间。各大科技公司为了占据生态优势也陆续推出各自的开源平台系统,之前较流行的两大开源平台是Tensorflow与Caffe,近来Caffe2和mxnet也逐步兴起,江湖尚未一统。对AI芯片厂商而言,目前需要选择开源平台进行支持。
开源平台生态支持方面,GPU相对完善,FPGA与ASIC加速跟进。以英伟达GPU为例,其支持包括Tensorflow,Caffe,Caffe2,CNTK,Torch等几乎所有的开源平台,完善的生态优势使得GPU目前具备极强竞争力。FPGA与ASIC相关厂商也纷纷注意到生态的重要性,陆续推出支持主流开源平台的产品。2016年,谷歌发布的TPU2代支持其自家的Tensorflow框架。2017年3月,Xilinx推出基于FPGA的reVISION堆栈解决方案,支持Caffe框架,并计划未来拓展到更多的框架比如TensorFlow等框架上。开源平台是支撑相关开发的基础,目前尚处于群雄逐鹿阶段。未来平台生态之争将是各家AI芯片能否占据市场的一大关键点。AI芯片厂商都会尽可能支持尽可能多的主流平台,但相应的,也会带来更多的开发任务量,需要折衷考虑。
在AI硬件开发环境方面,同样是GPU占据优势,FPGA厂商加速完善。AI硬件开发环境是指专门针对AI硬件推出的适应于硬件计算的开发环境,用户能利用如C,C++等软件语言更方便的基于AI芯片进行顶层应用开发,并且能起到硬件加速的效果。英伟达推出的CUDA是目前最流行的AI硬件开发环境,几乎所有英伟达主流GPU都支持CUDA开发。FPGA方面,为了减少FPGA设计的复杂度,Altera推出了 OpenCL SDK开发环境,Xilinx推出了SDAccel开发环境,这两种FPGA开发环境都大大减轻开发者利用FPGA开发的难度。但目前基于FPGA的开发环境开发灵活度与推广度依然不如CUDA。此外,由于ASIC直接采用底层硬件语言开发,目前不能用C语言等软件语言,因此不存在开发环境问题。
未来有望在统一的软件框架下,实现各类芯片在云端的融合共存。我们判断各种芯片在云端将竞争并长期共存,云端上层会提供统一的软件平台对各类芯片进行支持。换句话说,上层的开发者未来不需要关心底层的硬件是哪种,可以使用统一的、支持各类底层硬件的开源平台进行开发。云端具体采用哪种芯片架构,将根据云端实际应用需求确定。通过CPU+GPU/TPU+FPGA(可选)的灵活配置,更好地满足和实现各种应用场景下不断升级更新的AI算法的需求,使云端人工智能保持长期的灵活性。未来主流框架可能不止一种,类似TensorFlow、Caffe2等都有可能成为主流的Frame框架。
终端场景:按需求逐步落地,未来集成是趋势
AI“下沉”终端,芯片负责推断
云端受限于延时和安全性,催生AI向终端下沉。云端AI应用主要依靠网络将云端计算结果与终端执行结果数据和增量环境参数进行交换。这个过程存在两个问题:第一,使用网络传输数据到云端会产生延迟,很可能数据计算的结果会需要等待数秒甚至数十秒才能传回终端;第二,使用网络传送数据,传输过程中数据有被劫持的风险。因此,在某些对延迟和安全性要求较高的场景就有了将AI下沉到终端的需求。
下沉到终端的AI主要是“推断”部分。由于模型更新快,计算更为复杂,且基于大数据,“训练”一般在云端进行。由于数据和算力限制,未来在终端场景下,处理器主要负责执行人工智能的“推断”过程。“推断”下沉终端优势在于实时性,可以在终端进行的操作不需要回传云端处理,更有效满足AI运算的实时性需求场景。终端可定期从云端下载训练好的参数用于推断参数更新,同时可选择上传云端需要的“训练”信息。通俗来说,未来终端人工智能“大脑”的进化仍在云端进行。
需求决定硬件,场景逐渐落地
采用硬件实现终端人工智能是必然。理论上,智能终端利用原有CPU大脑,运行纯软件的AI算法,也可实现相关应用。但实时性要求高的场景(如安防、辅助驾驶等),对“最差情况下的最大延时”容忍度很低,如果只用CPU运算不能满足实时性要求,必须有专属硬件加速;而在手机、音箱、AR/VR眼镜、机器人等使用电池、对功耗敏感的终端场景,采用纯软件运算功耗很大,不能满足用户对功耗的苛刻要求,同样需要采用专属芯片加速。
终端AI推断需要硬件支持的需求场景有三种:(1)低延时;(2)低功耗;(3)高算力。按照需求落地先后顺序,我们判断AI芯片落地的终端子行业分别是:(1)智能安防;(2)辅助驾驶;(3)手机/音箱/无人机/机器人等其他消费终端。三个领域对终端AI硬件的要求各有侧重:(1)智能安防、智能驾驶由于视频信号的数据量较大,对数据流计算速度要求较高;(2)智能驾驶除计算能力外对硬件的稳定性和突发状况处理速度要求较高;(3)智能手机、音箱、AR/VR终端受限于电池容量,对低功耗的要求更高些。下面我们逐个分析几种AI+场景。
终端落地之AI+安防:GPU和FPGA先发落地,未来主控集成ASIC
1.1 智慧安防空间:AI产品持续渗透,长期千亿市场空间
从“看得见”到“看得清”到“看得懂”,智能大数据分析需求迫切,AI+安防趋势明显。高清技术日益进步,图像分辨率从D1到720P、1080P再到4K逐步进阶,视频监控设备持续高清化升级换代。根据IHS 数据,2013-2016年我国高清摄像机占比由13%增长至59%,首次超过模拟摄像机,实现了视频监控从“看得见”到“看得清”的转变,满足智能化基础需求。摄像头高清化产生海量数据,传统的人工查看方式已不满足日益增长的安防需求。同时,安防领域每年产生大量非结构化数据,将海量非结构化数据结构化后进行智能处理能极大提高追踪效率,人工智能的引入能满足从事后追查到事前防范的安防根本需求。安防领域在实现高清化网络化升级后,急切需要人工智能技术对海量数据进行处理,这些都促使摄像头目前开始向“看得懂”进化,智能安防趋势明显。
智慧安防产品首先在政府市场落地,长期千亿市场空间。(1)短期而言:由于AI产品单价较高,且适用于处理远距离的大数据,因此我们认为短期的增量空间主要看政府中的公安、交通等部门。假设国内/国外视频监控行业增速分别为15%/10%,至2020年国内外视频监控市场规模分别达1683/1234亿元,保守估计,若AI产品渗透率提升至10%,则国内/国外AI产品市场空间分别为168/148亿元。(2)长期来看:随着性价比更高的芯片解决方推出,海思等主控厂商必然推出包含AI专属TPU的IPC主控产品,以海康为首的安防厂商也必然研发推出适合自身的AI+芯片终端解决方案,AI产品单价将逐步回归理性,智慧产品的渗透范围有望快速渗透延伸至其他领域。未来AI产品渗透率若提升至35%,则全球AI产品市场空间将突破千亿元。
1.2 现有生态:GPU是目前AI+安防方案主流,行业巨头与英伟达携手
“AI+安防”方案两种:前端方案是未来趋势,中后端AI方案是目前主流。对智能安防而言,目前有前端和中后端两种解决方案。前端方案是AI摄像头方案,即将AI芯片集成至摄像头中,实现视频采集智能化;中后端方案则是利用普通摄像机采集视频信息后传输到中后端,在数据存储前利用插入GPU等板卡的智能服务器进行汇总分析。由于中后端方案不需要更换摄像头、可同时处理多路数据、部署成本相对较低,算法升级、运维方便,短期内中后端方案普及速更快。长期来看,海思等摄像头主控芯片厂商必然在芯片内部集成用于AI计算的专属硬件模块,大规模应用后实现成本会急剧降低,前端(智能摄像头)方案有望成为未来智能安防主流。目前无论是前端还是中后端解决方案,海康、大华等公司都采用英伟达GPU(Jetson TX1产品)实现,且以中后端AI方案为主。
安防巨头紧密携手英伟达,布局基于GPU的智能设备产品。目前海康、大华两大安防巨头的AI算法和相关产品都基于英伟达的GPU实现。 2016年,海康威视推出从前端到后端全系列的AI产品,发布基于英伟达GPU和深度学习技术“深眸”摄像机、“超脑”NVR、“脸谱”人脸分析服务器等多款AI系列产品。大华股份2016年第三季度成立AI研究院,2017年3月联合英伟达发布多款“睿智”系列前端和后端智能设备。
海康威视:首提安防AI+,引领安防智能化发展。海康威视自2006年开始智能分析技术研发,2013年布局深度学习。凭借多年深度学习研究积累以及高达9000余人的业内最大研发团队,公司在全球包括人脸识别、车辆识别、文字识别在内的多项图像检测比赛中取得第一。2015年公司率先推出AI 中心产品“猎鹰”、“刀锋”智能服务器,2016年公司在安博会首提“安防AI+”概念,并与英伟达和Movidius达成合作,陆续推出基于GPU/VPU和深度学习技术的“深眸”、“超脑”、“神捕”、“脸谱”系列 AI 前后端产品,并融入相关解决方案。公司AI产品目前已应用到南昌“天网项目二期”、“一带一路”峰会安保等重大项目中,有望引领安防智能化发展。
大华股份:紧随布局人工智能,AI产品加速落地。大华从2015年开始人工智能研究,在深度学习基础上研发出人脸识别、视频结构化、异常行为分析、高密度人群分析等智能技术。16年大华在向国际权威的人脸识别公开测试库LFW 提交测试结果,Dahua-FaceImage人脸识别准确率为 99.78%,保持世界第一水平。同期公司依托在CPU、DSP、GPU和FGPA等芯片平台上多年积累的软硬件研发能力,研发出包括前后端人脸识别、卡口电警、双目立体视觉、多目全景拼接产品在内的一系列智能化产品。17年公司联合英伟达发布多款“睿智”系列前端和后端智能设备并融入相关平安城市项目解决方案,大幅提高视频数据利用率,推进大数据在安防领域加速落地。
1.3 未来趋势:基于GPU成本是痛点,未来集成至IPC主芯片是趋势
目前基于GPU的智能安防的成本较为昂贵。目前主流的智能安防解决方案多基于英伟达Jetson TX1 GPU芯片,单个芯片成本估算在70~150美元左右,模块成本在200~300美元。依据配置不同,每个芯片可支持2~4路视频流,单路实现成本较高。相关调研显示,海康威视或已独家垄断英伟达TX1的GPU芯片供货。其他安防厂商仅可购买英伟达的TX1模组(即包括芯片、存储的GPU板),采购成本会更高。基于GPU的智能安防解决方案较为昂贵,目前阻碍了智能安防的渗透率快速提升。
FPGA成当前智能安防降低成本的可能方案。智能安防领域,目前国内公司深鉴科技已和大华股份、东方网力等安防厂商展开合作,推出基于Xilinx FPGA 的DPU产品,可以实现相对于GPU有 1个数量级的能效提升,同样功耗降低80%。该方案可将AI单路成本控制在20美元以内,较GPU方案便宜。同时,另一家国内公司地平线机器人也尝试将FPGA方案应用于安防和车载领域。在专用ASIC产品出现之前,FPGA有望成为部分安防场景降成本的有效手段。
ASIC未来将成为安防芯片主流。如前文所述,ASIC形态的AI芯片解决方案具备低成本、低功耗、高算力的优点。由于芯片存在大规模成本边际效益递减效应,专用芯片量产后,由AI模块带来的每颗芯片和相关存储成本增加预计在2美元以下,采用ASIC方案的AI摄像头实现成本将大幅度降低。换句话说,以后可能实现摄像头在成本增加非常小的情况下就可以转化成为AI摄像头。我们预计,和手机芯片集成AI专属模块类似,华为海思等摄像头主控芯片厂商,未来必然会集成适合安防场景的专属AI模块至主芯片中;同样的,以海康为首的安防厂商,为优化自身解决方案,也有望自研或与相关芯片厂商合作开发其专属的人工智能专用芯片。伴随着社会对智慧安防能力的需求提升,未来包含AI功能的 ASIC主控芯片或将成为安防主流芯片。
2. 终端落地之AI+汽车:GPU占据主导,ASIC是未来趋势
2.1 智能驾驶空间,芯片百亿市场空间
智能驾驶空间广阔,ADAS芯片是核心。智能驾驶是集导航、环境感知、控制与决策、交互等多项功能于一体的综合汽车智能系统,是人工智能落地的重要领域之一。据iiMediaResearch估计,2016年全球智能驾驶汽车市场规模为40.0亿美元,预计至2021年增长至70.3亿美元,复合增长率11.8%。智能驾驶核心是高级驾驶辅助系统(ADAS),ADAS系统的核心是算法和芯片。根据IHS预测,2020年全球ADAS芯片市场空间将达到248亿元,2016至2020年期间复合增长率高达10%。未来人工智能在车载领域具备广阔的市场空间。
2.2 现有生态:巨头与技术初创公司均大力布局AI+汽车
英伟达:2016年9月,Nvidia发布针对自动驾驶技术和汽车产品的芯片Xavier,采用自定义的八核CPU 架构,内建全新Volta GPU 架构作为自动驾驶汽车的计算机视觉加速器。Xavier 采用16nm FinFET 工艺,在提升性能的同时降低功耗,Xavier 运算性能达到20TOPS,功耗则只需20 瓦。英伟达在智能汽车领域的客户包括21家汽车制造商,而且英伟达是其中16家的连接解决方案一级供应商。它在该领域最重要的客户是特斯拉,英伟达的DRIVEPX 2平台应用于特斯拉所有车辆的AutoPilot系统中,包括Model 3。
高通:高通作为移动终端处理器的优势企业,在GMIC 2016上发布智能汽车芯片骁龙 820A。该处理器采用 CPU+GPU 模式,在快速处理数据信息的同时提升地图的渲染效果,并降低处理器能耗。处理器包括64位Kryo CPU(中央处理器)、Adreno530 GPU(图形处理器)。
地平线:2016年3月奇点汽车发布会上,国内人工智能公司地平线首次展示了其先进辅助驾驶系统(ADAS)原型系统—雨果平台。从地平线官方的视频和图片资料来看,这套系统可以实时检测车辆、车道线和行人,检测效果优于NVDIA于2016年初CES上提供的展示效果。在2017年1月的CES上,地平线又携手英特尔于全球消费电子展CES共同发布基于BPU架构的最新的高级辅助驾驶系统。在硬件方面,地平线将其BPU架构实现在ASIC上,并集成到雨果平台上。地平线的第一代人工智能处理器“盘古”已于2017年6月在台积电流片。产业调研显示,地平线也是目前唯一在四大汽车市场—美国、德国、日本和中国,与顶级OEMs和Tier1s 建立重要客户关系的中国初创企业。中国中央电视台,美国MITTechnology Review等众多媒体报道了地平线在自动驾驶和人工智能处理器设计方面的进展。
2.3 未来趋势:专属ASIC芯片是未来智能汽车市场主流
我们判断,专属ASIC芯片是智能汽车市场未来主流。得益于ASIC优良的性能,定制芯片可将车载信息的数据处理速度提升更快,并将能耗维持在相对较低水平,最重要的是,ASIC可以更好的满足车载应用下重点关心的“最差情况处理”的延时问题。但鉴于其研发周期长且成本高昂,目前车载场景下,主流厂商仍然考虑采用GPU作为主流方案,预计随着ADAS定制化需求的增加,未来专用芯片将成为主流。
3. 终端落地之AI+消费电子:百花齐放的未来最大应用场景
3.1 智慧产品空间:千亿美元市场,AI或引领新一轮消费电子革命
ASIC将成为AI终端之消费电子的必然选择。在过去的20年,主导消费电子的终端应用从PC切换到智能手机,然而苹果发布 iPhone 已有十年,全球智能手机渗透率已近饱和。据 Gartner 预测, 2016~2019年PC 出货将出现负增长,而智能手机的出货增速仅维持在1~2%。因此从2015年以后,大家开始寻找消费电子行业下一个风口,纷纷开始关注无人机、AR/VR、智能音响等领域。此类智能硬件都可与AI结合,AI处理芯片的加入将加速此类消费电子行业的发展,重点落地在手机、无人机、AR/VR、智能音响、机器人等子领域。其中,手机是目前电子行业最强粘性终端之一,也是驱动行业发展的最重要下游产品。随着AI芯片的加入,手机有望加速更新,继功能手机向智能手机的变革之后,再次向智慧手机进化,有望迎来新一波换机潮。
3.2 智慧手机=AI+AR+智能手机:伟大的新一轮强粘性终端革命
人工智能元素使智能手机向智慧手机转变,ASIC低成本低功耗低面积占据核心优势。电子行业本身利用强粘性需求所驱动,驱动发展周期约为5到7年。2002年之前由个人电脑驱动,2007年之前由功能手机驱动,2015年之前由智能手机驱动。但2015年以后,包括A客户推出“玫瑰金”“土豪金”这样的微创新,都表现了电子行业渗透率达到一定程度之后创新开始变缓。从2015年以后,业界普遍开始寻找电子行业下一个风口,包括无人机、可穿戴AR/VR、智能音响等,但是目前此类智能硬件都不属于强粘性终端。而只有类似手机每年出货在15亿到20亿部这样巨大量的强粘性终端才能够支撑电子行业进一步的变革与发展。手机仍将是未来几年不可替代的强粘性电子终端。目前AI在手机里面主要是辅助处理图形图像的识别(比如拍照的快速美颜)以及语音语义的识别等应用场景。但目前此类应用对AI算法处理速度的要求并不高。随着如AR功能的引入,并随着光学声学等传感器不断演进,对AI的计算能力需求会迅速增加,因此需要引入AI芯片来增加手机的运算能力。AI硬件芯片的引入或集成将有益于解决手机终端创新不足及目前渗透率过高的问题,未来与手机AR和3D应用的结合,会进一步推动智慧手机AI硬件的发展,从而带动手机产业链的发展。同时手机对功耗要求极低,ASIC低成本低功耗低面积将占据核心优势。
苹果:“Bionic神经引擎”助力苹果迎来新一轮技术革新。苹果在当地时间9月12日发布了本年度最重量级的产品——iPhone X(iPhone 10)。iPhone X 最引人关注的是其引入了Face ID解锁功能,手机可通过对人面部识别实现瞬间解锁。iPhone X集成了众多传感器,面部识别采集点达三万个,采集完的脸部信息由神经网络进行建模处理。为此,苹果专门打造了专用神经网络处理芯片A11“Bionic神经引擎”。该神经引擎使用双核设计,每秒运算6000亿次,面部信息数据都由A11引擎处理,不会送到云端。该芯片旨在将主处理器(CPU)和图像处理器(GPU)巨大的计算量分开,把面部识别、语音识别等 AI 相关的任务卸载到 AI 专用模块(ASIC)上处理,以提升 AI 算法效率,并延长电池寿命,并且最新发布的三款手机中所带有的Siri 语音助手及增强现实(AR)功能都将利用“Bionic神经引擎”进行实时处理。A11 Bionic芯片内部的AI处理器和CPU、GPU等一起,让新一代iPhone具备了更先进的AI能力,同时进一步降低AI处理任务对电池寿命的影响,AI元素助力苹果迎来新一轮技术革新。
华为:引入AI芯片,差异化竞争优势突出。2017年9月2日,在德国柏林举行的 IFA 2017 展会上,华为正式发布了全球首款移动端 AI 芯片麒麟970,并将运用于即将发布的华为Mate10手机中。这是业内第一次在手机芯片中出现了专门用于进行人工智能方面计算的处理单元,它早于苹果于9月12日发布的A11 Bionic中的 NeuralEngine。在麒麟 970 芯片的设计过程中,华为与寒武纪进行了深度合作,集成了专门用于神经网络任务处理的 NPU,并且其面积仅有10×10毫米。相信随着人工智能的兴起,手机芯片中是否集成人工智能处理器,将会成为手机芯片,甚至是智能手机差异化竞争的关键点。
高通:即将发布AI移动芯片抢占AI手机高地。高通一直在和Yann LeCun在Facebook AI研究机构的团队保持合作,共同开发用于实时推理的新型手机芯片。近日消息称,高通即将发布人工智能专用移动芯片,抢占人工智能手机领域高地。
三星:收购AI系列公司意欲布局手机AI。2016年10月,有消息称三星准备收购AI助手系统VivLabs公司,VivLabs的创始人也正是苹果Siri的创造者,这一举措,也证实了三星意欲布局人工智能手机领域。
3.3 智能音响:GPU目前占据主流,ASIC方案是未来
随着人工智能以及物联网的不断发展,智能家居越来越受到人们的欢迎。目前,亚马逊、谷歌、苹果等科技巨头纷纷开始布局智能家居市场。其中亚马逊推出智能音箱 Echo,在支持音箱功能的同时,更支持语音搜索、购物、提醒等多项操作。其主要芯片包括德州仪器的 DSP 和集成电源管理 IC,三星的 RAM, SanDisk 的 4GB 闪存和高通的 Wi-Fi、蓝牙模块。国内京东与国内最大语音技术公司科大讯飞联合开发叮咚音箱,能够在为用户提供音箱功能的同时,支持语音控制,并致力于在未来成为智能家居的集中控制中心,音箱主芯片采用全志四核 Cortex-A7CPU,并内置Mali400 GPU,旨在发挥其计算及音频处理功能。除此之外,国内阿里、腾讯、百度、小米都纷纷推出智能音响产品。虽然目前市面上的智能音响解决方案或者是运用GPU或者是通过云端进行计算。但考虑到成本等因素,未来智能音响中ASIC将是必然方案。
3.4 无人机、VR/AR:ASIC将是必然选择
英特尔于2016年11月完成对Movidius的收购,Movidius的Myriad 2视觉处理单元拥有相当于第一代产品20倍的超强性能,它专注于图像处理,是一种领先的视觉处理芯片。该芯片功耗很低,能够在0.5瓦的超低功耗下提供浮点运算性能,并且使用20纳米工艺制造。全球著名的无人机公司大疆在其智能无人机Phantom4以及最新推出的Mavic产品上均采用了Movidius公司的芯片。Movidius的芯片目前广泛用于VR/AR头显,室内导航,360°全景视频等场景。因为GPU与FPGA的量产成本都相对较高,并且都具有较大的能耗,因此ASIC将成为消费电子庞大蓝海的必然选择。
终端AI未来:成本效能优化,作为协处理器内嵌
1.成本效益优化,终极形态向ASIC进化
GPU和FPGA不能满足终端大规模、低成本应用需求。目前GPU和FPGA在终端虽然落地较快,但实现成本高、功耗大,不满足大规模终端应用低功耗、低成本的场景要求。比如在安防领域,海康威视深眸双目人脸智能摄像机目前方案采用GPU模块,实现成本估算为几百元甚至高达千元,大大增加了安防摄像头成本,阻碍了AI摄像头的普及速度。如果采用FPGA方案,目前单路摄像头实现成本也需要百元以上,成本较GPU低但依旧昂贵。
从成本和效能两个角度考虑,ASIC作为终端AI优势明显。同样以安防摄像头举例,如果未来海思等摄像头主控芯片供应商,未来在主芯片里内嵌入相关AI加速硬件IP,我们预估成本增加极有可能控制在2美元以内,能极大节约智能摄像头实现成本,加速其应用普及。
未来:进化至ASIC是趋势,内嵌入主芯片是形态。和云端几种芯片长期共存不同,我们判断,随着AI推断算法逐步稳定,无论安防、车载、消费电子,终端AI在终端各种场景下,都将最终进化至ASIC,以AI协处理器IP的方式,嵌入融合至现有的各种移动终端主控芯片中。对主控芯片公司而言,集成AI的IP模块,能够实现进化、维持长期竞争优势。产业调研显示,苹果、高通、三星、华为、展讯等各大手机终端主芯片厂商都在各自开发专属自己的人工智能加速ASIC协处理器。此外,ARM作为老牌CPU IP提供商,也在积极开发支持AI相关运算指令集的芯片产品。9月华为发布首款内嵌人工智能专属处理器的手机主芯片(麒麟970),搭载在十月发布的Mate 10 新机中,便是典型例证,也将成为未来终端人工智能ASIC发展的里程碑式事件。我们判断,华为随后同样会在其安防芯片中内嵌AI相关处理器。终端AI化普及已初现端倪。
2.关注“中华崛起”与“帝国反击”
“中华崛起”:中国公司在终端专用AI硬件架构领域未落人后。目前国内已有多家优秀的AI芯片创业型公司成立,主要包括寒武纪,地平线机器人,深鉴科技、比特大陆等。2017年8月寒武纪获得国投创业领投的1亿美元融资,并且华为9月发布的首款人工智能手机处理器也搭载寒武纪NPU。深鉴科技成立于2016年,2017年公司获得包括赛灵思在内的数千万美元投资,目前深鉴科技推出的专业处理芯片DPU在终端相比GPU性能快80%。2016年3月奇点汽车发布会上,地平线机器人首次展示了基于雨果平台的先进辅助驾驶系统(ADAS)原型系统,地平线计划将其专属ASIC处理器(BPU)集成到雨果平台之上,预计计算性能将比目前提升 2-3 个数量级,并且未来地平线还将其BPU应用于智慧家居、智慧城市等多个领域。2017年比特大陆最新发布的BM1680专用芯片是其定制化的ASIC AI芯片,适用于CNN/RNN等深度学习网络模型的预测和训练计算加速,32位浮点运算性能达到4TFLOPS,其竞争目标是英伟达高端GPU产品。可以看出,国产终端专用AI硬件架构目前处于世界一级梯队,未来前景广阔。
“帝国反击”:英伟达开源DLA阻击新兴ASIC厂商。2017年 5月 GTC 大会英伟达 CEO 黄仁勋宣布,为加速深度学习技术的普及和进步,将开源其 Xavier DLA(深度学习硬件加速器)供所有开发者使用、修改,争取占据终端生态平台优势。我们认为这是重要的标志性事件。标志着英伟达在终端对ASIC技术路径的认可,以及开始重视对新兴厂商的阻击。传统 GPU 架构的功耗限制了其在终端市场的应用,为维持其在人工智能硬件的霸主地位,英伟达把自己的ASIC技术路径和相关硬件代码开源,来应对ASIC芯片厂商的挑战。此次开源 Xavier DLA,英伟达就是瞄准嵌入式和 IoT 等终端市场,而这也是包括寒武纪、地平线、深鉴科技、Novomind 等在内的很多 AI 芯片创业公司重点耕耘的领域。英伟达试图利用硬件的开源共享和自己的良好生态优势,在终端继续拓展自己的帝国版图。我们认为这势必对新兴厂商造成一定程度的冲击,具体影响尚不明确,但云端巨头入局终端市场已成必然,新兴ASIC厂商将面临“看谁跑得快”的竞争新局面。
芯片前瞻:类脑,未来的另一种可能
类脑芯片——让机器用人类的大脑思考
类脑芯片是通过模拟人脑结构、让机器具备自主感知识别能力的AI方案。目前处理器芯片基本上基于传统“冯•诺依曼”架构,和人脑处理信息的方式和流程有本质差异。人脑最大的优点除善于自我学习和认知外,消耗的功耗也比计算机低很多,同时能够维持低功耗下的快速信息处理。类脑芯片可以看做机器对人大脑的模仿。它基于仿生学神经形态工程,借鉴人脑信息处理方式,采用与模拟人脑的新型存储器件,致力于发展适合实时处理非结构化信息、和人脑功能类似、具备学习能力的超低功耗新型计算芯片。力图在基本架构上模仿人脑工作原理,使用神经元和突触的方式替代传统“冯•诺依曼”架构体系,使芯片能够进行异步、并行、低速和分布式处理信息数据的能力,同时具备自主感知、识别和学习的能力。
代表是IBM TrueNorth 类脑芯片。目前最具代表性的研究成果是IBMTrueNorth 类脑芯片。TrueNorth基于脉冲神经网络设计,并且采用了逻辑时钟为1KHz这样的低频率来模拟毫秒级别生物上的脉冲,这也使得TrueNorth功耗很低(70mW)。目前IBM 已经利用 16 颗 TrueNorth 芯片开发出一台神经元计算机原型,具有一定的实时视频处理能力。
政府、巨头大力推动原型研发,尚不具备商用可能。包括美国、日本、德国、英国、瑞士等发达国家已经制定相应的类脑芯片发展战略,中国的类脑科学研究项目目前也已经正式启动。各国研究计划梳理如下表。但由于目前对人脑机理的理解和真正意义上的模拟都仍存在诸多盲区,模拟神经元的存储元器件(如忆阻器)尚不具备成熟量产能力,再加之目前以深度学习算法为基础的AI芯片阵营蓬勃发展,我们判断今后三年类脑芯片尚不具备成熟商用的可能。
除IBM类脑芯片外,我们也梳理了其他几种新型在研的AI方案供投资人参考。
海外AI重点芯片公司梳理
-
NVIDIA:GPU市场垄断者,业务逐渐由游戏转向数据中心
-
Intel:业务中心由PC芯片拓展至数据中心、物联网等领域
-
Google:利用TPU打造谷歌云核心竞争力
-
Xilinx:FPGA市场领导者,重点发力四大领域
-
Altera:紧随Xilinx之后的市场巨头,被Intel收购或迎加速发展
-
FPGA
+关注
关注
1629文章
21748浏览量
603809 -
人工智能
+关注
关注
1791文章
47348浏览量
238730 -
半导体芯片
+关注
关注
60文章
918浏览量
70649
原文标题:群芯逐鹿时代:AI未来,星辰大海——人工智能深度系列研究报告
文章出处:【微信号:eetop-1,微信公众号:EETOP】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论