0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU将失宠,ASIC 才是AI 前景所在

M8kW_icbank 来源:未知 作者:伍文辉 2018-01-02 15:58 次阅读

GPU人工智能AI)运算大放异彩,激励两家GPU 大厂Nvidia、超微(AMD)股价狂飙。但是分析师警告,明年GPU 在AI 的地位,也许会遭「特殊应用集成电路」(ASIC)取代。

12 日Nvidia 下跌1.96%,13 日续跌2.44% 收在186.18 美元。12 日超微下跌2.56%,13 日反弹2.12% 收在10.11 美元。

MarketWatch、Smarter Analyst报导,Susquehanna分析师Christopher Rolland 12日报告称,2017年AI GPU当道,2018年可能换成ASIC发威。AI运用深度学习解决真实世界问题,也使用在语音和影像辨识、自动驾驶、医疗等,Nvidia是AI工作量大增的受惠者,股价暴冲。不过,Susquehanna和多位业界领袖讨论,判断ASIC可能会取代GPU。

Rolland 以虚拟货币挖矿为例,解释此一变化。早期矿工挖掘虚币时,多用GPU,不过随着挖矿难度不断提高,矿工逐渐改用ASIC。现在比特币矿工多半采用ASIC,以太币矿工也会在今年改用ASIC。市面上更出现以太币专用ASIC,效能远胜GPU。

报告称,Nvidia 有ASIC 相关部门,未来仍会在AI 扮演重要角色。但是市场将有更多竞争者,有望受惠的ASIC 业者,包括协助谷歌研发AI 芯片博通、Cavium、Marvell、Microsemi 等。

另外,现场可程式化闸阵列(Field-Programmable Gate Array,FPGA)也可能从AI 热潮沾光,赛灵思(Xilinx)的FPGA 就用于亚马逊云端服务。

芯片商Cerebras 正在研发AI 专用的ASIC,该公司执行长Andrew Feldman 强调,GPU 并非最适合AI 运算的芯片。GPU 原本是为了电玩开发,如今却碰巧适用于另一个毫不相干的新市场。这种幸运的巧合不会发生,最可能的解释是,GPU 只是当前最佳的解决方案,让业界能继续往前,暗示ASIC 才是AI 前景所在。

Barron's.com 8 月23 日报导,摩根士丹利(Morgan Stanley,通称大摩)发表研究报告指出,现场可程式化闸阵列在机器学习进行「推论」(inference)时扮演的角色,可能比市场想像还要大,Xilinx 有望受惠。

GPU、FPGA、ASIC,谁更适合人工智能?

围绕着人工智能的计算,有上述三种方案,我们来看一下哪一种会是AI首选。

GPU主要擅长做类似图像处理的并行计算,所谓的“粗粒度并行(coarse-grain parallelism)”。图形处理计算的特征表现为高密度的计算而计算需要的数据之间较少存在相关性,GPU 提供大量的计算单元(多达几千个计算单元)和大量的高速内存,可以同时对很多像素进行并行处理。

GPU中一个逻辑控制单元对应多个计算单元,同时要想计算单元充分并行起来,逻辑控制必然不会太复杂,太复杂的逻辑控制无法发挥计算单元的并行度,例如过多的if…else if…else if… 分支计算就无法提高计算单元的并行度,所以在GPU中逻辑控制单元也就不需要能够快速处理复杂控制。

这里GPU计算能力用Nvidia的Tesla K40进行分析,K40包含2880个流处理器(Stream Processor),流处理器就是GPU的计算单元。每个流处理器包含一个32bit单精度浮点乘和加单元,即每个时钟周期可以做2个单精度浮点计算。GPU峰值浮点计算性能 = 流处理器个数 GPU频率 每周期执行的浮点操作数。以K40为例,K40峰值浮点计算性能= 2880(流处理器) 745MHz 2(乘和加) = 4.29T FLOPs/s即每秒4.29T峰值浮点计算能力。

GPU芯片结构是否可以充分发挥浮点计算能力?GPU同CPU一样也是指令执行过程:取指令 ->指令译码 ->指令执行,只有在指令执行的时候,计算单元才发挥作用。GPU的逻辑控制单元相比CPU简单,所以要想做到指令流水处理,提高指令执行效率,必然要求处理的算法本身复杂度低,处理的数据之间相互独立,所以算法本身的串行处理会导致GPU浮点计算能力的显著降低。

上图是GPU的设计结构。GPU的设计出发点在于GPU更适用于计算强度高、多并行的计算。因此,GPU把晶体管更多用于计算单元,而不像CPU用于数据Cache和流程控制器。这样的设计是因为并行计算时每个数据单元执行相同程序,不需要繁琐的流程控制而更需要高计算能力,因此也不需要大的cache容量。

FPGA作为一种高性能、低功耗的可编程芯片,可以根据客户定制来做针对性的算法设计。所以在处理海量数据的时候,FPGA 相比于CPU 和GPU,优势在于:FPGA计算效率更高,FPGA更接近IO。

FPGA不采用指令和软件,是软硬件合一的器件。对FPGA进行编程要使用硬件描述语言,硬件描述语言描述的逻辑可以直接被编译为晶体管电路的组合。所以FPGA实际上直接用晶体管电路实现用户的算法,没有通过指令系统的翻译。

FPGA的英文缩写名翻译过来,全称是现场可编程逻辑门阵列,这个名称已经揭示了FPGA的功能,它就是一堆逻辑门电路的组合,可以编程,还可以重复编程。上图展示了可编程FPGA的内部原理图。

里FPGA计算能力用Xilinx的V7-690T进行分析,V7-690T包含3600个DSP(Digital Signal Processing),DSP就是FPGA的计算单元。每个DSP可以在每个时钟周期可以做2个单精度浮点计算(乘和加)。FPGA峰值浮点计算性能 = DSP个数 FPGA频率 每周期执行的浮点操作数。V7-690T运行频率已250MHz来计算,V7-690T峰值浮点计算性能 = 3600(DSP个数) 250MHz 2(乘和加)=1.8T FLOPs/s即每秒1.8T峰值浮点计算能力。

FPGA芯片结构是否可以充分发挥浮点计算能力?FPGA由于算法是定制的,所以没有CPU和GPU的取指令和指令译码过程,数据流直接根据定制的算法进行固定操作,计算单元在每个时钟周期上都可以执行,所以可以充分发挥浮点计算能力,计算效率高于CPU和GPU。

ASIC是一种专用芯片,与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC与通用芯片相比,具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但是缺点也很明显:算法是固定的,一旦算法变化就可能无法使用。目前人工智能属于大爆发时期,大量的算法不断涌出,远没有到算法平稳期,ASIC专用芯片如何做到适应各种算法是个最大的问题,如果以目前CPU和GPU架构来适应各种算法,那ASIC专用芯片就变成了同CPU、GPU一样的通用芯片,在性能和功耗上就没有优势了。

我们来看看FPGA 和 ASIC 的区别。FPGA基本原理是在芯片内集成大量的数字电路基本门电路以及存储器,而用户可以通过烧入 FPGA 配置文件来来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的,即用户今天可以把 FPGA 配置成一个微控制器 MCU,明天可以编辑配置文件把同一个 FPGA 配置成一个音频编解码器。ASIC 则是专用集成电路,一旦设计制造完成后电路就固定了,无法再改变。

比较 FPGA 和 ASIC 就像比较乐高积木和模型。举例来说,如果你发现最近星球大战里面 Yoda 大师很火,想要做一个 Yoda 大师的玩具卖,你要怎么办呢?

有两种办法,一种是用乐高积木搭,还有一种是找工厂开模定制。用乐高积木搭的话,只要设计完玩具外形后去买一套乐高积木即可。而找工厂开模的话在设计完玩具外形外你还需要做很多事情,比如玩具的材质是否会散发气味,玩具在高温下是否会融化等等,所以用乐高积木来做玩具需要的前期工作比起找工厂开模制作来说要少得多,从设计完成到能够上市所需要的时间用乐高也要快很多。

FPGA 和 ASIC 也是一样,使用 FPGA 只要写完 Verilog 代码就可以用 FPGA 厂商提供的工具实现硬件加速器了,而要设计 ASIC 则还需要做很多验证和物理设计 (ESD,Package 等等),需要更多的时间。如果要针对特殊场合(如军事和工业等对于可靠性要求很高的应用),ASIC 则需要更多时间进行特别设计以满足需求,但是用 FPGA 的话可以直接买军工级的高稳定性 FPGA 完全不影响开发时间。但是,虽然设计时间比较短,但是乐高积木做出来的玩具比起工厂定制的玩具要粗糙(性能差)一些(下图),毕竟工厂开模是量身定制。

另外,如果出货量大的话,工厂大规模生产玩具的成本会比用乐高积木做便宜许多。FPGA 和 ASIC 也是如此,在同一时间点上用最好的工艺实现的 ASIC 的加速器的速度会比用同样工艺 FPGA 做的加速器速度快 5-10 倍,而且一旦量产后 ASIC 的成本会远远低于 FPGA 方案。

FPGA 上市速度快, ASIC 上市速度慢,需要大量时间开发,而且一次性成本(光刻掩模制作成本)远高于 FPGA,但是性能高于 FPGA 且量产后平均成本低于 FPGA。目标市场方面,FPGA 成本较高,所以适合对价格不是很敏感的地方,比如企业应用,军事和工业电子等等(在这些领域可重配置真的需要)。而 ASIC 由于低成本则适合消费电子类应用,而且在消费电子中可配置是否是一个伪需求还有待商榷。

我们看到的市场现状也是如此:使用 FPGA 做深度学习加速的多是企业用户,百度、微软、IBM 等公司都有专门做 FPGA 的团队为服务器加速,而做 FPGA 方案的初创公司 Teradeep 的目标市场也是服务器。而 ASIC 则主要瞄准消费电子,如 Movidius。由于移动终端属于消费电子领域,所以未来使用的方案应当是以 ASIC 为主。

由于不同的芯片生产工艺,对芯片的功耗和性能都有影响,这里用相同工艺或者接近工艺下进行对比,ASIC芯片还没有商用的芯片出现,Google的TPU也只是自己使用没有对外提供信息,这里ASIC芯片用在学术论文发表的《DianNao: A Small-Footprint High-Throughput Accelerator for Ubiquitous Machine-Learning》作为代表。

GPU将失宠,ASIC 才是AI 前景所在

从上面的对比来看,能耗比方面:ASIC > FPGA > GPU > CPU,产生这样结果的根本原因:对于计算密集型算法,数据的搬移和运算效率越高的能耗比就越高。ASIC和FPGA都是更接近底层IO,所以计算效率高和数据搬移高,但是FPGA有冗余晶体管和连线,运行频率低,所以没有ASIC能耗比高。GPU和CPU都是属于通用处理器,都需要进行取指令、指令译码、指令执行的过程,通过这种方式屏蔽了底层IO的处理,使得软硬件解耦,但带来数据的搬移和运算无法达到更高效率,所以没有ASIC、FPGA能耗比高。GPU和CPU之间的能耗比的差距,主要在于CPU中晶体管有大部分用在cache和控制逻辑单元,所以CPU相比GPU来说,对于计算密集同时计算复杂度低的算法,有冗余的晶体管无法发挥作用,能耗比上CPU低于GPU。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1629

    文章

    21729

    浏览量

    603002
  • asic
    +关注

    关注

    34

    文章

    1199

    浏览量

    120436
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4729

    浏览量

    128890
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268887

原文标题:GPU将失宠,明年的AI市场看ASIC

文章出处:【微信号:icbank,微信公众号:icbank】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI算力GPU开始腾飞,背后是电源管理的持续支持

    电子发烧友网报道(文/黄山明)近期,IDC出具了一份报告显示,AI PC在中国PC市场中新机的装配比例将在未来几年内快速攀升,预计2024年迅速增长至55%,在2027年达到85%,而今年也将成
    的头像 发表于 03-30 00:12 4455次阅读
    <b class='flag-5'>AI</b>算力<b class='flag-5'>GPU</b>开始腾飞,背后是电源管理的持续支持

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 84次阅读

    ASIC爆火!大厂AI训练推理抛弃GPU;博通的护城河有多深?

    电子发烧友网报道(文/梁浩斌)在上周末,博通应该可以说是投资圈和科技圈最火爆的话题,大家纷纷惊呼“英伟达的对手终于出现了!”“ASIC要超越GPU”云云。   这一切都要源于上周五博通公布的炸裂财报
    的头像 发表于 12-18 01:25 1649次阅读

    GPU服务器AI网络架构设计

    众所周知,在大型模型训练中,通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构(上篇)》中,我们对GPU网络中的核心术语与概念进行了详尽介绍。本文
    的头像 发表于 11-05 16:20 314次阅读
    <b class='flag-5'>GPU</b>服务器<b class='flag-5'>AI</b>网络架构设计

    FPGA和ASIC在大模型推理加速中的应用

    随着现在AI的快速发展,使用FPGA和ASIC进行推理加速的研究也越来越多,从目前的市场来说,有些公司已经有了专门做推理的ASIC,像Groq的LPU,专门针对大语言模型的推理做了优化,因此相比
    的头像 发表于 10-29 14:12 390次阅读
    FPGA和<b class='flag-5'>ASIC</b>在大模型推理加速中的应用

    为什么ai模型训练要用gpu

    GPU凭借其强大的并行处理能力和高效的内存系统,已成为AI模型训练不可或缺的重要工具。
    的头像 发表于 10-24 09:39 256次阅读

    ai大模的应用前景是什么?

    人工智能(AI)大模型的应用前景非常广泛,涉及到各个行业和领域。以下是对AI大模型应用前景的介绍: 医疗健康领域 AI大模型在医疗健康领域的
    的头像 发表于 07-16 10:13 592次阅读

    AI大模型的发展历程和应用前景

    领域取得重要突破。本文深入解析AI大模型的基本原理、发展历程、应用前景以及面临的挑战与争议,为读者提供一个全面而深入的科普视角。
    的头像 发表于 07-03 18:20 1158次阅读

    AI手机市场前景广阔,五大关键洞察助厂商保持竞争优势

    技术进步推动用户对AI手机体验的期待提升。端侧运行AI模型和应用,优化专用处理器如ASICGPU及其他零部件至关重要。随着技术的进步,软件和服务能力将成为关键因素。
    的头像 发表于 05-29 11:19 450次阅读

    为什么跑AI往往用GPU而不是CPU?

    GPU的能力,并且支持的GPU数量越多,就代表其AI性能越强大。那么问题来了,为什么是GPU而不是CPU?GPU难道不是我们日常使用的电脑里
    的头像 发表于 04-24 08:27 1869次阅读
    为什么跑<b class='flag-5'>AI</b>往往用<b class='flag-5'>GPU</b>而不是CPU?

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人工智能(
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b>训练,为什么需要<b class='flag-5'>GPU</b>?

    AI服务器异构计算深度解读

    AI服务器按芯片类型可分为CPU+GPU、CPU+FPGA、CPU+ASIC等组合形式,CPU+GPU是目前国内的主要选择(占比91.9%)。
    发表于 04-12 12:27 607次阅读
    <b class='flag-5'>AI</b>服务器异构计算深度解读

    FPGA在深度学习应用中或取代GPU

    对神经网络进行任何更改,也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了深度学习代码转换为 FPGA 硬件指令的抽象层 AI 硬件前景
    发表于 03-21 15:19

    到底什么是ASIC和FPGA?

    2022年底,发布了AI ASIC芯片AIU。 三星早几年也搞过ASIC,当时做的是矿机专用芯片。没错,很多人认识ASIC,就是从比特币挖矿开始的。相比
    发表于 01-23 19:08

    FPGA、ASICGPU谁是最合适的AI芯片?

    CPU、GPU遵循的是冯·诺依曼体系结构,指令要经过存储、译码、执行等步骤,共享内存在使用时,要经历仲裁和缓存。 而FPGA和ASIC并不是冯·诺依曼架构(是哈佛架构)。以FPGA为例,它本质上是无指令、无需共享内存的体系结构。
    发表于 01-06 11:20 1635次阅读
    FPGA、<b class='flag-5'>ASIC</b>、<b class='flag-5'>GPU</b>谁是最合适的<b class='flag-5'>AI</b>芯片?