从功能来看,可以分为Training(训练)和Inference(推理)两个环节;
从应用场景来看,可以分成“Cloud/DataCenter(云端)”和“Device/Embedded(设备端)”两大类;
除了按照功能和应用场景划分外,AI芯片从技术架构发展来看,大致也可以分为四个类型:
2、基于FPGA的半定制化芯片,代表如深鉴科技DPU、百度XPU等;
3、全定制化ASIC芯片,代表如TPU、寒武纪 Cambricon-1A等;
4、类脑计算芯片,代表如IBM TrueNorth、westwell、高通Zeroth等。
AI芯片产业生态
国内AI芯片公司
中科寒武纪
AI产品:Cambricon-1A
寒武纪科技成立于2016年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄弟,近期刚刚完成了一亿美元A轮融资,阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,成为全球AI芯片领域第一个独角兽初创公司。
寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。
地平线机器人(Horizon Robotics)
AI产品:BPU
地平线机器人成立于2015年,总部在北京,创始人是前百度深度学习研究院负责人余凯。公司于去年中完成了A+轮融资,投资方包括了晨兴资本、高瓴资本、红杉资本、金沙江创投、线性资本、创新工场、真格基金、双湖投资、青云创投、祥峰投资、DST等。据介绍,公司近期即将完成B轮融资。
BPU(BrainProcessing Unit)是地平线机器人自主设计研发高效的人工智能处理器架构IP,支持ARM/GPU/FPGA/ASIC实现,专注于自动驾驶、人脸图像辨识等专用领域。2017年,地平线基于高斯架构的嵌入式人工智能解决方案将会在智能驾驶、智能生活、公共安防三个领域进行应用,第一代BPU芯片“盘古”目前已进入流片阶段,预计在今年下半年推出,能支持1080P的高清图像输入,每秒钟处理30帧,检测跟踪数百个目标。地平线的第一代BPU采用TSMC的40nm工艺,相对于传统CPU/GPU,能效可以提升2~3个数量级(100~1,000倍左右)。
深鉴科技
AI产品:DPU
深鉴科技成立于2016年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立,今年初完成了A轮融资,投资方包括了联发科、赛灵思、金沙江创投、高榕资本、清华控股、方和资本等。
深鉴科技将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络CNN而设计;笛卡尔架构专为处理DNN/RNN网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于 Intel XeonCPU 与 Nvidia TitanX GPU,应用笛卡尔架构的处理器在计算速度上分别提高189倍与13倍,具有24000倍与3000倍更高能效。
启英泰伦
AI产品:CI1006
启英泰伦于2015年11月在成都成立,是一家语音识别芯片研发商,投资方包括了Roobo、汇声信息等。
启英泰伦的CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。
云知声
AI产品:Unione/IVM-M/Unitoy
云知声是一家智能语音识别技术公司,成立于2012年,总部位于北京。今年8月刚刚获得3亿人民币战略投资,其中部分资金将用于加大人工智能专用芯片UniOne的研发力度。
UniOne将内置DNN处理单元,兼容多麦克风、多操作系统,对任何的场景不做限制,无论是在智能的空调上、车载上或其他智能设备上都可以植入这个芯片,该芯片具有高集成度的,低功耗、低成本的优点。与此同时,公司还有IVM-M高性能嵌入式芯片,基于高通wifi模组,提供高性价比的物联网语音交互整体方案,主要应用在智能空调,厨电等职能家具产品上;基于Linux系统设计的Unitoy芯片可一站式解决儿童陪伴式机器人的唤醒、识别、设备互联能力。
百度
AI产品:XPU
百度2017年8月Hot Chips大会上发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU采用新一代 AI 处理架构,拥有GPU的通用性和FPGA的高效率和低能耗,对百度的深度学习平台PaddlePaddle做了高度的优化和加速。据介绍,XPU关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。但目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。到目前为止,XPU尚未提供编译器。
华为
AI产品:麒麟 970 神经网络处理器NPU
麒麟970搭载的神经网络处理器NPU采用了寒武纪IP。麒麟970采用了TSMC 10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核Mali G72 MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92 TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约50倍能效和25倍性能优势。
云天励飞
AI产品:IPU
公司成立于2014年,总部在深圳,由国家“***”特聘专家陈宁和田第鸿博士联合创立,今年3月完成了A轮融资,投资方松禾资本、深投控、红秀盈信、山水从容投资、投控东海、真格基金等。
云天励飞提供视觉智能芯片和解决方案,专注于人工智能领域,以新型处理器、机器学习与大数据技术为核心。公司自主研发的处理器芯片IPU,采用了全新的面向视觉计算的处理器芯片架构,该技术将机器学习效能提升了两个数量级。公司在在深圳搭建的区域级天眼系统,实现了全球首创的“百万人群、秒级定位”,还被采纳为2016年杭州G20峰会和乌镇互联网大会的安全系统提供服务。
中星微
AI产品:NPU
中星微在2016年6月20日率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例。
研发“星光智能一号”耗时三年时间。中星微集团聚集了北京、广东、天津、山西、江苏、青岛、硅谷的研发力量,采用了先进的过亿门级集成电路设计技术及超亚微米芯片制造工艺,在TSMC成功实现投片量产。
目前“星光智能一号”出货量主要集中在安防摄像领域,其中包含授权给其他安防摄像厂商部分。未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进行推广和应用。
杭州国芯
AI产品:gxNPU
杭州国芯是一家本土的芯片公司,成立于2001年,已经有17年的历史。最初杭州国芯主要做数字电视芯片、机顶盒芯片,产品已遍销全球。
西井科技
AI产品:Deepsouth
西井科技成立于2015年5月,是一家开发“类脑人工智能芯片+算法”的科技公司,其芯片用电路模拟神经,成品有100亿规模的仿真神经元。西井用FPGA模拟神经元以实现SNN的工作方式,其产品命名为Deepsouth,正是和IBM的truenorth成竞品。由于架构特殊,这些芯片计算能力强,可用于基因测序、模拟大脑放电等医疗领域。
西井科技还有一款5000万个神经元的商用芯片。除了自我学习外,它的传统计算能力也极强,能将基因测序从两周缩短到数个小时。由于体积小、功耗是同类芯片几十分之一,其它便携式医疗设备也可使用这款芯片。
Think Force
Think Force——上海熠知电子科技有限公司成立于2017年,由来自芯片设计、算法软件、系统开发领域的资深专家创立。公司主要设计融合一流AI算法和先进制成工艺的智能芯片,并以此构建人工智能硬件平台,提供一站式行业应用解决方案。
据介绍,ThinkForce计划推出的AI芯片基于业界先进的半导体制程工艺,采用自主研发的微内核ManyCore架构,能完成AI云虚拟化调度在芯片级的实现,此架构将AI云的弹性计算和调度提升一个量级,类似CPU的虚拟化给云计算的弹性调度带来成倍的成本节约。同时,该技术结合自主研发的固件和TFDL软件SDK能够实现对于各类神经网络模型的计算加速,相对于Nvidia主流计算卡能实现5倍以上的功耗和成本节省。
比特大陆
AI产品:TPU
比特大陆成立于2013年,是一家专注于高速、低功耗定制芯片设计研发的科技公司,拥有低功耗高性能的16nm工艺集成电路的量产经验,成功设计量产了多款ASIC定制芯片和集成系统。
在2017世界人工智能大会上重磅发布了面向人工智能应用的专用定制芯片Sophon BM1680,深度学习加速卡SC1和SC1+以及智能视频分析服务器SS1,正式进军人工智能行业。
中天微系统
杭州中天微系统有限公司成立于2001年,总部位于杭州高新区。是一家致力于32位高性能低功耗嵌入式CPU研发,以芯片架构授权为核心业务的IC设计公司,也是直接与阿里巴巴合作,并获得阿里巴巴入股投资的一家国产CPU业者。是当前我国唯一基于自主指令架构研发嵌入式CPU并实现大规模量产的CPU供应商。
2015年,阿里便与杭州中天微系统有限公司进行深度合作,面向物联网各细分领域开发云芯片(Yun on Chip)架构。在云端一体的框架下研制新一代CPU、SoC平台、软件支撑环境和操作系统,支持从芯片到云端的全链路安全、低成本接入。并积极致力于打造产业生态链,开发面向全行业的云芯片产品。
人人智能
AI产品:FaceOS
人人智能提供一个基ARM的人脸识别核心芯片即模组方案,识别模组是独创的支持深度学习算法的嵌入式高性能ARM平台,支持外接摄像机从视频流检测和载取人脸照片等功能。据介绍,人人智能发布的“智能芯”是国内首个人脸识别硬件模组,尺寸仅为86mm*56mm*21mm,集成了人工智能操作系统FaceOS。通过将人工智能算法进行集成产品化,能够把产品的研发周期减少60%,成本降低50%。
NovuMind
NovuMind成立于2015年,公司创始人是原百度异构计算小组负责人吴韧,在北京及硅谷设有办公室。公司于2017年初完成了A轮融资,投资方包括了真格基金、宽带资本、英诺天使基金、洪泰基金、臻云创投、极客帮创投等,据报道近期正在筹备新一轮融资。
NovuMind主要为智能为汽车、安防、医疗、金融等领域提供ASIC芯片,并提供训练模型的全栈式AI解决方案。与Nvidia GPU或Cadence DSP的通用深度学习芯片不同,NovuMind专注于开发一种“非常专用但非常高效地进行推理”的深度学习加速器芯片。NovuMind设计了一种仅使用3×3卷积过滤器的AI芯片,通过使用独特的张量处理架构(tensorprocessing architecture)直接对三维Tensor进行处理,新芯片将支持Tensorflow、Cafe和Torch模型。NovuMind的第一个AI芯片(原型)预计会在17年圣诞节前推出。到明年2月份应用程序准备就绪,并能够在该芯片上实现耗能不超过5瓦进行15万亿次浮点运算。NovuMind的第二个芯片,耗能将不超过1瓦,计划在2018年中期面世。
AI产品:RK3399Pro
在CES 2018年消费电子展前夜,瑞芯微宣布,向全球正式推出旗下首款性能超强的AI处理器RK3399Pro,其片上NPU(神经网络处理器)运算性能高达2.4TOPs,具高性能、低功耗、开发易等优势,并且瑞芯微能为AI人工智能领域提供一站式Turnkey解决方案。
根据官方介绍,RK3399Pro 首次采用CPU+GPU+NPU硬件结构设计的AI芯片,其集成的NPU(神经网络处理器)融合了Rockchip在机器视觉、语音处理、深度学习等领域的多年经验。相较传统芯片,典型深度神经网络Inception V3、ResNet34、VGG16等模型在RK3399Pro芯片上的运行效果表现出众,获近百倍提升。
RK3399Pro采用专有AI硬件设计, NPU运算性能高达2.4TOPs,高性能与低功耗指标均大幅领先:相较同类NPU芯片性能领先150%;相较GPU作为AI运算单元的大型芯片方案,功耗不到其所需的1%。
国外AI芯片公司
英伟达(Nvidia)
英伟达无疑是AI芯片市场中无可争议的领导者。2017年,英伟达可谓是风光无限。从游戏、数据中心到人工智能,市场对英伟达芯片的需求一路上升。
由于深度学习对计算速度的要求是“暴力”的,英伟达GPU芯片可以让大量处理器并行运算,速度比CPU快十倍甚至几十倍,因而成为绝大部分人工智能研究者和开发者的必备”核弹“。
国内搞AI创业的人几乎全在用英伟达GPU和平台,一个小型AI创业团队在英伟达芯片上花费几十万元很正常。
作为PC时代的绝对霸主,Intel已经错过了移动互联网时代,在已经到来的AI时代,也失掉了先机,但它并没有放弃,而是积极布局,准备逆袭。在云端,收购Altera之后推出了基于FPGA的专用深度学习加速卡,可以在云端使用;另外,收购Nervana,目标也是在云端。在移动端,则是收购了Movidius。下面先对Nervana进行介绍,对Movidius的介绍放在后面移动端。
2017年12月,相争50多年的Intel和AMD宣布将联手推出一款结合英特尔处理器和AMD图形单元的笔记本电脑芯片,一时间业内哗然。
芯谋研究总监王笑龙认为:“如果Nvidia在个人电脑GPU上营收减少,那么Nvidia在新市场的开发就会被牵制,所以Intel选择和AMD合作。”
数据研究机构Gartner的研究主管Alan Priestley也认为,Intel和AMD的合作将会对Nvida产生一些影响,“目前Intel和AMD联合推出的这款芯片的应用领域也正是Nvidia GPU的应用领域。很明显,Intel处理器已经渗入到这个领域内,并且通过新款芯片,AMD也会在这一领域内获得立足点。”
Google在2016年宣布独立开发一种名为TPU的全新的处理系统。TPU是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需的晶体管数量,从而能让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。
在2016年3月打败了李世石和2017年5月打败了柯杰的的阿尔法狗,就是采用了谷歌的TPU系列芯片。
高通
在智能手机芯片占据绝对优势的高通公司,也在人工智能方面积极布局。据高通提供的资料显示,其在人工智能方面已投资了Clarifai公司和中国“专注于物联网人工智能服务”的云知声。
而早在2015年CES上,高通推出了一款搭载骁龙SoC的飞行机器人——Snapdragon Cargo。高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,公司恰好可以发挥其在计算机视觉领域的能力。此外,高通的额骁龙820芯片也被应用于VR头盔中。事实上,高通已经在研发能在本地完成深度学习的移动设备芯片。
Nervana Systems
Nervana创立于2014年,位于圣地亚哥的初创公司Nervana Systems已经从20家不同的投资机构那里获得了2440万美元资金,而其中一家是十分受人尊敬的德丰杰风险投资公司(Draper Fisher Jurvetson,DFJ)。
The Nervana Engine(将于2017年问世)是一个为深度学习专门定做和优化的ASIC芯片。这个方案的实现得益于一项叫做High Bandwidth Memory的新型内存技术,同时拥有高容量和高速度,提供32GB的片上储存和8TB每秒的内存访问速度。该公司目前提供一个人工智能服务“in the cloud”,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务,他们的新型芯片将会保证Nervana云平台在未来的几年内仍保持最快的速度。
Movidius(被Intel收购)
2016年9月,Intel发表声明收购了Movidius。Movidius专注于研发高性能视觉处理芯片。其最新一代的Myriad2视觉处理器主要由SPARC处理器作为主控制器,加上专门的DSP处理器和硬件加速电路來处理专门的视觉和图像信号。这是一款以DSP架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。
该芯片已被大量应用在Google 3D项目Tango手机、大疆无人机、FLIR智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。
IBM
IBM很早以前就发布过watson,早就投入了很多的实际应用中去。除此之外,还启动了对类人脑芯片的研发,那就是TrueNorth。
TrueNorth是IBM参与DARPA的研究项目SyNapse的最新成果。SyNapse全称是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自适应可塑可伸缩电子神经系统,而SyNapse正好是突触的意思),其终极目标是开发出打破冯•诺依曼体系的硬件。
ARM
ARM刚推出全新芯片架构DynamIQ,通过这项技术,AI的性能有望在未来三到五年内提升50倍。
ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行,ARM还将放出一系列软件库。
CEVA是专注于DSP的IP供应商,拥有为数众多的产品线。其中,图像和计算机视觉 DSP 产品 CEVA-XM4 是第一个支持深度学习的可编程 DSP,而其发布的新一代型号 CEVA-XM6,具有更优的性能、更强大的计算能力,以及更低的耗能。
CEVA 指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是主要目标。
MIT/Eyeriss
Eyeriss事实上是MIT的一个项目,还不是一个公司,但是因为获得了大量的媒体报道,故把它单独拿出来进行介绍。从长远来看,如果进展顺利,很可能孵化出一个新的公司。
Eyeriss是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建168 个核心,专门用来部署神经网路(neural network),效能为一般行动GPU 的10 倍。其技术关键在于最小化GPU 核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般GPU 内的核心通常共享单一记忆体,但Eyeriss 的每个核心拥有属于自己的记忆体。
目前,Eyeriss主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。
苹果
在iPhone 8和iPhone X的发布会上,苹果明确表示其中所使用的A11处理器集成了一个专用于机器学习的硬件——“神经网络引擎(Neural Engine)”,每秒运算次数最高可达6000亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。
2017年,华为海思推出了麒麟970芯片,据知情人士透露,为了对标华为,三星已经研发了许多种类的人工智能芯片。三星计划在未来三年内自家智能手机中都采用人工智能芯片,并且他们还将为人工智能设备建立新的组件业务。三星还投资了Graphcore、深鉴科技等人工智能芯片企业。
ManyCore
ManyCore架构特斯拉CEO马斯克在今年的神经信息处理系统大会上,承认特斯拉自动驾驶硬件工程副总裁 Jim Keller正在领导着一个超五十人的团队在开发自己的AI芯片。
Jim Keller 是2016年带了一批架构师和高管跳槽到特斯拉的,他在 AMD和苹果期间,设计出了K7 、K8架构和A4、A5 处理器,被称得上是天才架构师。
微软
微软蛰伏六年,打造出了一个迎接AI世代的芯片。那就是Project Catapult。这个FPGA 目前已支持微软Bing,未来它们将会驱动基于深度神经网络——以人类大脑结构为基础建模的人工智能——的新搜索算法,在执行这个人工智能的几个命令时,速度比普通芯片快上几个数量级。
2017年7月,微软表示正在研发用于识别语音和图像的 AI 芯片,未来将被包含在下一代 HoloLens 的全息处理单元(HPU)当中。
KnuEdge
KnuEdge实际上并不是一个初创公司,它由NASA的前任负责人创立,已经在一个隐形模式下运营了10年。KnuEdge最近从隐形的模式中走出,并让全世界知道他们从一个匿名的投资人获取1亿美元的投资用来开发一个新的“神经元芯片”。
KUNPATH提供基于LambaFabric的芯片技术,LambaFabric将会通过与现在市场上的GPUs、CPUs和FPGAs完全不同的架构进行神经网络的计算。LambdaFabric本质上是为在高要求的运算环境下向上拓展至512000台设备而设计,机架至机架延迟时间只有400毫微秒,低功耗的256核处理器。
krtkl
创立于2015年的krtkl致力于创造“一个微小的无线电脑用来创造一些完全不同的东西”。这款开拓板是基于XilinxZynq SoC,集成了ARM处置器和可编程FPGA。用户甚至可以经过手机上的专用APP对其举行编程,供230个用户可用的I/O接口,应用灵巧兼容很多扩展板卡。
Barefoot Networks
Barefoot Networks去年11月宣布获得2300万美元C轮融资,由阿里巴巴和腾讯领投。在去年6月,Barefoot 还获得了由谷歌和丹华资本等投资的5700万美元融资。
Barefoot Networks开发了世界上第一个可编程芯片,这种名为Tofino的芯片比现在市场上任何其他芯片快两倍,以每秒6.5兆的速度处理网络数据包。
耐能(Kneron)
耐能人工智能(KneronInc.)成立于2015年11月,是一家总部位于美国圣地亚哥的人工智能初创企业,在深圳和珠海也设有办公室。耐能人工智能(KneronInc.)的产品特色在于同时具备硬件及软件的人工智能解决方案,可以将复杂的深度学习演算法,放在终端设备里,而且无需连上网络。
耐能(Kneron)于2016年推出该公司首款终端设备专用的人工智能芯片,称为神经网络处理器(Neural Processing Unit,NPU),以及自行研发的软件开发工具包「重组式人工智能神经网络」(Reconfigurable Artificial Neural Network),采用算法可以针对不同的需求快速调整功能,以适用不同的人工智能应用。
Graphcore
2017年11月,英国芯片制造商Graphcore宣布获得由红杉资本中国基金与红杉资本美国基金共同领投的5000万美元C轮融资。
graphore是一家总部位于布里斯托尔的公司,它开发了新一代计算机处理器,可用于训练人工智能( AI)算法。该公司声称,其IPU ( intelligence processing units)可以将机器智能培训的性能提高10倍到100倍。这家英国公司计划明年大规模出货,其芯片将用于无人驾驶汽车和云计算。
此外,Facebook以及Twitter和更多低调的初创公司都在研发新的芯片。
-
处理器
+关注
关注
68文章
19286浏览量
229850 -
AI
+关注
关注
87文章
30896浏览量
269101 -
AI芯片
+关注
关注
17文章
1887浏览量
35023
原文标题:全球AI芯片公司盘点
文章出处:【微信号:mantianIC,微信公众号:满天芯】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论