0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU的历史性时刻!

芯司机 来源:芯司机 2023-08-29 15:06 次阅读

8月23日,GPU巨头Nvidia发布了2023年二季度财报,其结果远超预期。总体来说,Nvidia二季度的收入达到了135亿美元,相比去年同期增长了101%;净利润达到了61亿美元,相比去年同期增长了843%。Nvidia公布的这一惊人的财报一度在盘后让Nvidia股票大涨6%,甚至还带动了众多人工智能相关的科技股票在盘后跟涨。

Nvidia收入在二季度如此大涨,主要靠的就是目前方兴未艾的人工智能风潮。ChatGPT为代表的大模型技术从去年第三季度以来,正在得到全球几乎所有互联网公司的追捧,包括美国硅谷的谷歌、亚马逊以及中国的百度、腾讯、阿里巴巴等等巨头。而这些大模型能进行训练和推理的背后,都离不开人工智能加速芯片,Nvidia的GPU则是大模型训练和推理加速目前的首选方案。由于个大科技巨头以及初创公司都在大规模购买Nvidia的A系列和H系列高端GPU用于支持大模型训练算力,这也造成了Nvidia的数据中心GPU供不应求,当然这反映到财报中就是收入和净利润的惊人增长。

9ac214b6-4633-11ee-a2ef-92fbcf53809c.png

事实上,从Nvidia的财报中,除了亮眼的收入和净利润数字之外,还有一个关键的数字值得我们关注,就是Nvidia二季度的数据中心业务收入。根据财报,Nvidia二季度的数据中心业务收入超过了100亿美元,相比去年同期增长171%。Nvidia数据中心业务数字本身固然非常惊人,但是如果联系到其他公司的同期相关收入并进行对比,我们可以看到这个数字背后更深远的意义。同样在2023年第二季度,Intel的数据中心业务收入是40亿美元,相比去年同期下降15%;AMD的数据中心业务收入是13亿美元,相比去年同期下降11%。我们从中可以看到,在数据中心业务的收入数字上,Nvidia在2023年第二季度的收入已经超过了Intel和AMD在相同市场收入的总和。

这样的对比的背后,体现出了在人工智能时代,人工智能加速芯片(GPU)和通用处理器芯片(CPU)地位的反转。目前,在数据中心,人工智能加速芯片/GPU事实上最主流的供货商就是Nvidia,而通用处理器芯片/CPU的两大供货商就是Intel和AMD,因此比较Nvidia和Intel+AMD在数据中心领域的收入数字就相当于比较GPU和CPU之间的出货规模。虽然人工智能从2016年就开始火热,但是在数据中心,人工智能相关的芯片和通用芯片CPU相比,获得的市场份额增长并不是一蹴而就的:在2023年之前,数据中心CPU的份额一直要远高于GPU的份额;甚至在2023年第一季度,Nvidia在数据中心业务上的收入(42亿美元)仍然要低于Intel和AMD在数据中心业务的收入总和;而在第二季度,这样的力量对比反转了,在数据中心GPU的收入一举超过了CPU的收入。

这也是一个历史性的时刻。从上世纪90年代PC时代开始,CPU一直是摩尔定律的领军者,其辉煌从个人电脑时代延续到了云端数据中心时代,同时也推动了半导体领域的持续发展;而在2023年,随着人工智能对于整个高科技行业和人类社会的影响,用于通用计算的CPU在半导体芯片领域的地位正在让位于用于人工智能加速的GPU(以及其他相关的人工智能加速芯片)。

摩尔定律的故事在GPU上仍然在发生

众所周知,CPU的腾飞离不开半导体摩尔定律。根据摩尔定律,半导体工艺特征尺寸每18个月演进一代,同时晶体管的性能也得大幅提升,这就让CPU在摩尔定律的黄金时代(上世纪80年代至本世纪第一个十年)突飞猛进:一方面CPU性能每一年半就迭代一次,推动新的应用出现,另一方面新的应用出现又进一步推动对于CPU性能的需求,这样两者就形成了一个正循环。这样的正循环一直到2010年代,随着摩尔定律逐渐接近物理瓶颈而慢慢消失——我们可以看到,最近10年中,CPU性能增长已经从上世纪8、90年代的15%年复合增长率(即性能每18个月翻倍)到了2015年后的3%年复合增长率(即性能需要20年才翻倍)。

9ad18676-4633-11ee-a2ef-92fbcf53809c.png

但是,摩尔定律对于半导体晶体管性能增长的驱动虽然已经消失,但是摩尔定律所预言的性能指数级增长并没有消失,而是从CPU转到了GPU上。如果我们看2005年之后GPU的性能(算力)增长,我们会发现它事实上一直遵循了指数增长规律,大约2.2年性能就会翻倍!

9af32e8e-4633-11ee-a2ef-92fbcf53809c.png

同样是芯片,为什么GPU能延续指数级增长?这里,我们可以从需求和技术支撑两方面来分析:需求意味着市场上是不是有应用对于GPU的性能指数级增长有强大的需求?而技术支撑则是,从技术上有没有可能实现指数级性能增长?

从需求上来说,人工智能确实存在着这样强烈需求。我们可以看到,从2012年(神经网络人工智能复兴怨念开始)到至今,人工智能模型的算力需求确实在指数级增长。2012年到2018年是卷积神经网络最流行的年份,在这段时间里我们看到人工智能模型的算力需求增长大约是每两年15倍。在那个时候,GPU主要负责的是模型训练,而在推理部分GPU的性能一般都是绰绰有余。而从2018年进入以Transformer架构为代表的大模型时代后,人工智能模型对于算力需求的演进速度大幅提升,已经到了每两年750倍的地步。在大模型时代,即使是模型的推理也离不开GPU,甚至单个GPU都未必能满足推理的需求;而训练更是需要数百块GPU才能在合理的时间内完成。这样的性能需求增长速度事实上让GPU大约每两年性能翻倍的速度都相形见拙,事实上目前GPU性能提升速度还是供不应求!因此,如果从需求侧去看,GPU性能指数级增长的曲线预计还会延续很长一段时间,在未来十年内GPU很可能会从CPU那边接过摩尔定律的旗帜,把性能指数级增长的神话续写下去。

9b0c3032-4633-11ee-a2ef-92fbcf53809c.png

GPU性能指数增长背后的技术支撑

除了需求侧之外,为了能让GPU性能真正维持指数增长,背后必须有相应的芯片技术支撑。我们认为,在未来几年内,有三项技术将会是GPU性能维持指数级增长背后的关键。

第一个技术就是领域专用(domain-specific)芯片设计。同样是芯片,GPU性能可以指数级增长而CPU却做不到,其中的一个重要因素就是GPU性能增长不仅仅来自于晶体管性能提升和电路设计改进,更来自于使用领域专用设计的思路。例如,在2016年之前,GPU支持的计算主要是32位浮点数(fp32),这也是在高性能计算领域的默认数制;但是在人工智能兴起之后,研究表明人工智能并不需要32位浮点数怎么高的精度,而事实上16位浮点数已经足够用于训练,而推理使用8位整数甚至4位整数都够了。而由于低精度计算的开销比较小,因此使用领域专用计算的设计思路,为这样的低精度计算做专用优化可以以较小的代价就实现人工智能领域较大的性能提升。从Nvidia GPU的设计我们可以看到这样的思路,我们看到了计算数制方面在过去的10年中从fp32到fp16到int8和int4的高效支持,可以说是一种低成本快速提高性能的思路。除此之外,还有对于神经网络的支持(TensorCore),稀疏计算的支持,以及Transformer的硬件支持等等,这些都是领域专用设计在GPU上的很好体现。在未来,GPU性能的提升中,可能是有很大一部分来自于这样的领域专用设计,往往一两个专用加速模块的引入就能打破最新人工智能模型的运行瓶颈来大大提升整体性能,从而实现四两拨千斤的效果。

第二个技术就是高级封装技术。高级封装技术对于GPU的影响来自两部分:高速内存和更高的集成度。在大模型时代,随着模型参数量的进一步提升,内存访问性能对于GPU整体性能的影响越来越重要——即使GPU芯片本身性能极强,但是内存访问速度不跟上的话,整体性能还是会被内存访问带宽所限制,换句话说就是会遇到“内存墙”问题。为了避免内存访问限制整体性能,高级封装是必不可少的,目前的高带宽内存访问接口(例如已经在数据中心GPU上广泛使用的HBM内存接口)就是一种针对高级封装的标准,而在未来我们预期看到高级封装在内存接口方面起到越来越重要的作用,从而助推GPU性能的进一步提升。高级封装对于GPU性能提升的另一方面来自于更高的集成度。最尖端半导体工艺(例如3nm和以下)中,随着芯片规模变大,芯片良率会遇到挑战,而GPU可望是未来芯片规模提升最激进的芯片品类。在这种情况下,使用芯片粒将一块大芯片分割成多个小芯片粒,并且使用高级封装技术集成到一起,将会是GPU突破芯片规模限制的重要方式之一。目前,AMD的数据中心GPU已经使用上了芯片粒高级封装技术,而Nvidia预计在不久的未来也会引入这项技术来进一步继续提升GPU芯片集成度。

最后,高速数据互联技术将会进一步确保GPU分布式计算性能提升。如前所述,大模型的算力需求提升速度是每两年750倍,远超GPU摩尔定律提升性能的速度。这样,单一GPU性能赶不上模型算力需求,那么就必须用数量来凑,即把模型分到多块GPU上进行分布式计算。未来几年我们可望会看到大模型使用越来越激进的分布式计算策略,使用数百块,上千块甚至上万块GPU来完成训练。在这样的大规模分布式计算中,高速数据互联将会成为关键,否则不同计算单元之间的数据交换将会成为整体计算的瓶颈。这些数据互联包括近距离的基于电气互联的SerDes技术:例如在Nvidia的Grace Hopper Superchip中,使用NVLINK C2C做数据互联,该互联可以提供高达900GB/s的数据互联带宽(相当于x16 PCIe Gen5的7倍)。另一方面,基于光互联的长距离数据互联也会成为另一个核心技术,当分布式计算需要使用成千上万个计算节点的时候,这样的长距离数据交换也会变得很常见并且可能会成为系统性能的决定性因素之一。

我们认为,在人工智能火热的年代,GPU将会进一步延续摩尔定律的故事,让性能指数级发展继续下去。为了满足人工智能模型对于性能强烈的需求,GPU将会使用领域专用设计、高级封装和高速数据互联等核心技术来维持性能的快速提升,而GPU以及它所在的人工智能加速芯片也将会成为半导体领域技术和市场进步的主要推动力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4701

    浏览量

    128706
  • 人工智能
    +关注

    关注

    1791

    文章

    46859

    浏览量

    237579
  • 大模型
    +关注

    关注

    2

    文章

    2328

    浏览量

    2485

原文标题:GPU的历史性时刻!

文章出处:【微信号:芯司机,微信公众号:芯司机】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA市值突破3.6万亿美元,稳居全球第一

    近日,全球图形处理器(GPU)巨头NVIDIA公司创下了历史性的里程碑,其市值首次突破3.6万亿美元,成为全球市值最高的公司。这一壮举不仅彰显了NVIDIA在科技领域的强大实力,也为其未来的发展奠定了坚实的基础。
    的头像 发表于 11-11 15:22 300次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算的GPU架构演进 GPU图像计算发展 ●从三角形开始的几何阶段 在现代图形渲染中,三角形是最常用的基本图形元素
    发表于 11-03 12:55

    GPU在图形设计中的重要

    了更高的要求。 1. GPU的基本概念 GPU是一种专门用于处理图形和视频渲染的微处理器。与传统的CPU(中央处理单元)相比,GPU拥有更多的核心,能够同时处理成千上万的并行任务,这使得它在图形处理方面具有极高的效率。随着
    的头像 发表于 10-27 11:17 268次阅读

    卡特彼勒天津工厂投产十周年

    近日,卡特彼勒(天津)有限公司(以下简称“天津工厂”)庆祝正式投产十周年,500余名员工与嘉宾们共同见证了这一具有里程碑意义的历史性时刻
    的头像 发表于 09-18 18:02 598次阅读

    Linux操作系统份额创历史新高,逼近4.5%里程碑

    在最新的全球操作系统市场份额报告中,市调机构StatCounter于8月27日发布了令人瞩目的数据:2024年7月,Linux系统实现了历史性的飞跃,其市场份额首次逼近4.5%的关口,达到了4.44%的新高。这一成就标志着Linux在全球操作系统领域的持续扩张与影响力的增强。
    的头像 发表于 08-27 17:05 706次阅读

    中国石油、中国移动、华为、科大讯飞将共建昆仑大模型

    近日,一场备受瞩目的昆仑大模型建设研讨会暨合作共建签约仪式在北京盛大举行。在这一历史性时刻,中国石油、中国移动、华为、科大讯飞四家企业共同签署了昆仑大模型合作共建协议,标志着昆仑大模型的建设正式拉开了序幕。
    的头像 发表于 05-30 09:18 794次阅读

    京东与小米达成战略合作,共推智能生活新篇章

    近日,京东集团与小米集团签署了一项全新战略合作协议,两大科技巨头联手迈向更加广阔的智能生活领域。京东集团CEO许冉与小米集团合伙人、总裁及国际业务部总裁卢伟冰共同见证了这一历史性时刻
    的头像 发表于 05-16 10:09 437次阅读

    半导体行业的历史性并购机遇 

    李亚军首先回顾了中国集成电路产业的发展历程,包括起步、全球化、逆全球化以及再全球化四个阶段。他指出,2000年后,中国集成电路产业步入起步期,无锡华晶、华虹、中芯国际和展讯等代表企业纷纷成立。
    的头像 发表于 05-11 16:50 1000次阅读

    中国汽车产业迎来历史性时刻——中国新能源车市场渗透率首超燃油车。

    新能源行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年04月25日 09:28:04

    诚迈科技携手NXP为未来智能汽车领域开辟全新的软件定义汽车模式

    3月28日,NXP(恩智浦半导体)在德国隆重发布S32 CoreRide开放平台,诚迈科技作为NXP全球金牌合作伙伴,受邀共同见证这一历史性时刻
    的头像 发表于 03-29 09:54 1557次阅读

    FPGA在深度学习应用中或将取代GPU

    的玩家来说不是什么大问题。但在其他领域,如汽车行业,需要硬件有更高的耐用,这就带来了问题。特别是过多的暴露在恶劣的环境中,再加上高强度的使用,GPU 的使用寿命将会更短。 Larzul 说:“从商
    发表于 03-21 15:19

    紫光展锐银团签约仪式成功举行

    紫光展锐银团签约仪式近日在上海隆重举行,五大银行巨头——工商银行、建设银行、浦发银行、招商银行和中信银行齐聚一堂,共同见证了这一历史性时刻
    的头像 发表于 03-11 11:17 513次阅读

    马斯克脑机接口技术迎来历史性时刻

    马斯克在X平台上发布帖子称,首位接受Neuralink脑机接口植入的人类患者恢复状况良好。初步研究成果显示,神经元尖峰检测充满希望。
    的头像 发表于 02-22 10:55 941次阅读

    CPU与GPU散热器设计的异同及其重要

    CPU与GPU散热器的设计异同及其重要 在计算机的发展过程中,中央处理单元(CPU)和图形处理单元(GPU)在性能和热量产生方面的不断提升和增加,使得其在长时间工作时产生了大量的热量。为了保证
    的头像 发表于 01-09 14:00 1194次阅读

    揭秘GPU: 高端GPU架构设计的挑战

    设计具体难在哪里?这包括许多方面的因素。1、能力均衡的挑战在架构设计中,通用性要求GPU能够适应各种场景,易用关乎客户和开发者的体验,而高性能是硬件的灵魂。如何均衡
    的头像 发表于 12-21 08:28 856次阅读
    揭秘<b class='flag-5'>GPU</b>: 高端<b class='flag-5'>GPU</b>架构设计的挑战