GPU竞争壁垒：微架构和平台生态-电子发烧友网

据Global Market Insights 数据，全球 GPU 市场预计将以 CAGR 25.9%持续增长，至 2030 年达到 4000 亿美元规模。其中 AI 领域大语言模型的持续推出以及参数量的不断增长有望驱动模型训练端、推理端 GPU 需求快速增长。

近年来，国产 GPU 厂商在图形渲染 GPU 和高性能计算 GPGPU 领域上均推出了较为成熟的产品，在性能上不断追赶行业主流产品，在特定领域达到业界一流水平。生态方面国产厂商大多兼容英伟达 CUDA，融入大生态进而实现客户端不断导入。在高端GPU 芯片进口受限的背景下，国产 GPU 厂商预计将乘政策东风，抓住国产替代契机快速成长。

GPU（图形处理器）最初是为了解决 CPU 在图形处理领域性能不足的问题而诞生。CPU 作为核心控制计算单元，高速缓冲存储器（Cache）、控制单元（Control）在 CPU 硬件架构设计中所占比例较大，主要为实现低延迟和处理单位内核性能要求较高的工作而存在，而计算单元（ALU）所占比例较小，这使得 CPU 的大规模并行计算表现不佳。GPU 架构内主要为计算单元，采用极简的流水线进行设计，适合处理高度线程化、相对简单的并行计算，在图像渲染等涉及大量重复运算的领域拥有更强运算能力。 GPGPU脱胎于GPU，通用性提升

CPU+GPU 异构计算解决多元化计算需求

大语言模型开启 AI 元年

常见的AI 加速芯片主要为GPU、FPGA 和 ASIC

大语言模型有望拉动 GPU 需求增量

GPU 的微架构是用以实现指令执行的硬件电路结构设计以 Nvidia 第一个实现统一着色器模型的 Tesla 微架构为例，从顶层 Host Interface 接受来自 CPU 的数据，藉由 Vertex（顶点）、Pixel（片元）、Compute（计算着色器）分发给各 TPC（Texture Processing Clusters 纹理处理集群）进行处理。

流处理器、特殊函数计算单元构成计算核心在单个 TPC 中主要的运算结构为SM（Streaming Multiprocessor 流式多处理器），其内在蕴含 I Cache（指令缓存）、C Cache（常量缓存）以及核心的计算单元 SP（Streaming Processor 流处理器）和 SFU（Special Function Unit 特殊函数计算单元），外加 Texture Unit（纹理单元）。

解耦计算单元，拥抱通用计算由于图形渲染流管线相对固定，Nvidia 在 Tesla构中将部分重要环节剥离并实现可编程，解耦出 SM 计算单元用于通用计算，即可实现根据具体任务需要分配相应线程实现通用计算处理。

计算核心、纹理单元增加， GPC 功能更加完整，Nvidia Fermi 架构奠定完整GPU 计算架构基础。

在Tesla 之后，Nvidia 第一个完整的 GPU 计算架构 Fermi通过制程微缩增加更多计算核心、纹理单元，并且通过增加 PolyMorph Engine（多形体引擎）和 Raster Engine（光栅引擎）使得原来 TPC 升级成为拥有更加完整功能的 GPC（Graphics Processing Clusters 图形处理器集群）。Fermi 架构共包含 4 个 GPC，16 个 SM，512 个CUDA Core。

英伟达GPU从最初 Fermi 架构到最新的 Ampere 架构和 Hopper 架构

每一阶段都在性能和能效比方面得到提升，引入了新技术，如 CUDA、GPUBoost、RT 核心和 Tensor 核心等，在图形渲染、科学计算和深度学习等领域发挥重要作用。最新一代 Hopper 架构在 2022 年 3 月推出，旨在加速 AI 模型训练，使用 Hopper Tensor Core 进行 FP8 和 FP16 的混合精度计算，以大幅加速Transformer 模型的 AI 计算。与上一代相比，Hopper 还将 TF32、FP64、FP16 和INT8 精度的每秒浮点运算(FLOPS)提高了 3 倍。

AMD 作为全球第二大GPU厂商，亦通过持续的架构演进保持其市场领先地位

从2010年以来，AMD 相继推出：GCN 架构、RDNA 架构、RDNA 2 架构、RDNA 3 架构、CDNA 架构和 CDNA 2 架构。最新一代面向高性能计算和人工智能 CDNA 2 架构于架构采用增强型 Matrix Core 技术，支持更广泛的数据型和应用，针对高性能计算工作负载带来全速率双精度和全新 FP64 矩阵运算。基于 CDNA2 架构的 AMD Instinct MI250X GPU FP64 双精度运算算力最高可达 95.7 TFLOPs。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4702

浏览量
128710
微架构

微架构

+关注

关注
0

文章
22

浏览量
7035

原文标题：GPU竞争壁垒：微架构和平台生态

文章出处：【微信号：架构师技术联盟，微信公众号：架构师技术联盟】欢迎添加关注！文章转载请注明出处。

《算力芯片高性能 CPUGPUNPU 微架构分析》第3篇阅读心得：GPU革命：从图形引擎到AI加速器的蜕变

在数据挖掘工作中，我经常需要处理海量数据的深度学习任务，这让我对GPU架构和张量运算充满好奇。阅读《算力芯片》第7-9章，让我对这些关键技术有了全新认识。 GPU架构从早期的固定功能流

发表于 11-24 17:12

GPU服务器AI网络架构设计

众所周知，在大型模型训练中，通常采用每台服务器配备多个GPU的集群架构。在上一篇文章《高性能GPU服务器AI网络架构（上篇）》中，我们对GPU

发表于 11-05 16:20 •201次阅读

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

本篇阅读学习第七、八章，了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算的GPU架构演进 GPU图像计算发展 ●从三角形开始

发表于 11-03 12:55

GPU加速计算平台是什么

GPU加速计算平台，简而言之，是利用图形处理器（GPU）的强大并行计算能力来加速科学计算、数据分析、机器学习等复杂计算任务的软硬件结合系统。

发表于 10-25 09:23 •215次阅读

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解，理论联系实际，使读者能更好理解算力芯片。全书共11章，由浅入深，较系统全面进行讲解。下面目录对全书内容有一个整体了解

发表于 10-15 22:08

【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

算法的引擎GPU、GPU硬件架构剖析、GPU服务器的设计与实现、GPU集群的网络设计与实现、GPU

发表于 10-08 10:40

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

，即大模型专用AI超级计算机的中枢核心。作者介绍：濮元恺，曾就职于中关村在线核心硬件事业部，负责CPU和GPU类产品评测，长期关注GPGPU并行计算相关芯片微架构。目前在量化金融领域，主要负表

发表于 09-02 10:09

ALINX FPGA+GPU异架构视频图像处理开发平台介绍

Alinx 最新发布的新品 Z19-M 是一款创新的 FPGA+GPU 异构架构视频图像处理开发平台，它结合了 AMD Zynq UltraScale+ MPSoC（FPGA）与 NVIDIA Jetson Orin NX（

发表于 08-29 14:43 •986次阅读

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

基于TOGAF方法论，剖析业界知名案例的设计方案。全书总计13章。第1章讲解AI与大模型时代对基础架构的需求；第2章讲解软件程序与专用硬件的结合，涉及GPU并行运算库、机器学习程序的开发框架和分布式AI训练

发表于 08-16 18:33

中科驭数HADOS 3.0：以四大架构革新，全面拥抱敏捷开发理念，引领DPU应用生态

一家成功的大算力芯片公司，其核心壁垒必须是软硬兼备的，既要有芯片架构的强大技术壁垒，更要有持久投入的、生态兼容完备的软件护城河。HADOS，就是中科驭数的软件护城河。

发表于 07-09 14:26 •341次阅读

微信Linux原生版在龙架构平台终端成功启动运行

近日，在腾讯微信团队、龙芯中科与国产操作系统厂商的共同努力下，微信Linux原生版在龙架构平台终端成功启动运行，并在操作系统厂商应用商店上架分发，为用户带来全新的龙

发表于 03-19 16:32 •836次阅读

GPU技术、生态及算力分析

对比AMD从2013年开始建设GPU生态，近10年时间后用于通用计算的ROCm开放式软件平台才逐步有影响力，且还是在兼容CUDA的基础上。因此我们认为国内厂商在软件和生态层面与英伟达C

发表于 01-14 10:06 •1182次阅读

超微gpu服务器评测

微GPU服务器进行评测。一、超微GPU服务器概述超微GPU服务器是一种基于超微服务器

发表于 01-10 10:37 •1306次阅读

深入解读AMD最新GPU架构

GCN 取代了 Terascale，并强调 GPGPU 和图形应用程序的一致性能。然后，AMD 将其 GPU 架构开发分为单独的 CDNA 和 RDNA 线路，分别专门用于计算和图形。

发表于 01-08 10:12 •1151次阅读

揭秘GPU：高端GPU架构设计的挑战

在计算领域，GPU（图形处理单元）一直是性能飞跃的代表。众所周知，高端GPU的设计充满了挑战。GPU的架构创新，为软件承接大模型训练和推理场景的人工智能计算提供了持续提升的硬件基础。

发表于 12-21 08:28 •857次阅读