大模型训练，英伟达Turing、Ampere和Hopper算力分析-电子发烧友网

大 GPU 优势在于通过并行计算实现大量重复性计算。GPGPU即通用GPU，能够帮助 CPU 进行非图形相关程序的运算。在类似的价格和功率范围内，GPU 能提供比CPU 高得多的指令吞吐量和内存带宽。GPGPU 架构设计时去掉了 GPU 为了图形处理而设计的加速硬件单元，保留了 GPU 的 SIMT架构和通用计算单元，通过 GPU 多条流水线的并行计算来实现大量计算。

所以基于 GPU 的图形任务无法直接运行在 GPGPU 上，但对于科学计算，AI 训练、推理任务（主要是矩阵运算）等通用计算类型的任务仍然保留了 GPU 的优势，即高效的搬运和运算有海量数据的重复性任务。目前主要用于例如物理计算、加密解密、科学计算以及比特币等加密货币的生成。

随着超算等高并发性计算的需求不断提升，英伟达以推动 GPU 从专用计算芯片走向通用计算处理器为目标推出了GPGPU，并于 2006 年前瞻性发布并行编程模型 CUDA，以及对应工业标准的 OpenCL。CUDA 是英伟达的一种通用并行计算平台和编程模型，它通过利用图形处理器 (GPU)的处理能力，可大幅提升计算性能。CUDA 使英伟达的 GPU 能够执行使用 C、C++、Fortran、OpenCL、DirectCompute 和其他语言编写的程序。在 CUDA 问世之前，对 GPU 编程必须要编写大量的底层语言代码；CUDA 可以让普通程序员可以利用 C 语言、C++等为 CUDA 架构编写程序在 GPU平台上进行大规模并行计算，在全球 GPGPU 开发市场占比已超过 80%。GPGPU 与 CUDA 组成的软硬件底座，构成了英伟达引领 AI 计算及数据中心领域的根基。

GPU 架构升级过程计算能力不断强化，Hopper 架构适用于高性能计算（HPC）和 AI 工作负载。英伟达在架构设计上，不断加强 GPU 的计算能力和能源效率。在英伟达 GPU 架构的演变中，从最先 Tesla 架构，分别经过 Fermi、Kepler、Maxwell、Pascal、Volta、Turing、Ampere至发展为今天的 Hopper 架构。

以 Pascal 架构为分界点，自 2016 年后英伟达逐步开始向深度学习方向演进。根据英伟达官网，Pascal 架构，与上一代 Maxwell 相比，神经网络训练速度提高 12 倍多，并将深度学习推理吞吐量提升了 7 倍。

Volta 架构，配备 640 个 Tensor 内核增强性能，可提供每秒超过 100 万亿次（TFLOPS）的深度学习性能，是上一代 Pascal 架构的 5 倍以上。

Turing 架构，配备全新 Tensor Core，每秒可提供高达 500 万亿次的张量运算。

Ampere架构，采用全新精度标准 Tensor Float 32（TF32），无需更改任何程序代码即可将AI 训练速度提升至 20 倍。

最新Hopper 架构是第一个真正异构加速平台，采用台积电 4nm 工艺，拥有超 800 亿晶体管，主要由 Hopper GPU、Grace CPU、NVLINK C2C 互联和 NVSwitch 交换芯片组成，根据英伟达官网介绍，其性能相较于上一代 Megatron 530B 拥有 30 倍 AI 推理速度的提升。

AMD 数据中心领域布局全面，形成 CPU+GPU+FPGA+DPU 产品矩阵。与英伟达相比，AMD 在服务器端 CPU 业务表现较好，根据 Passmark 数据显示，2021 年 Q4 AMD EPYC 霄龙系列在英特尔垄断下有所增长，占全球服务器 CPU 市场的 6%。依据 CPU 业务的优势，AMD 在研发 GPGPU 产品时推出 Infinity Fabric 技术，将 EPYC 霄龙系列 CPU 与 Instinct MI 系列 GPU 直接相连，实现一致的高速缓存，形成协同效应。此外，AMD 分别于 2022 年 2 月、4 月收购 Xilinx 和Pensando，补齐 FPGA 与 DPU 短板，全面进军数据中心领域。

软件方面，AMD 推出 ROCm 平台打造 CDNA 架构，但无法替代英伟达 CUDA 生态。AMD 最新的面向 GPGPU 架构为 CDNA 系列架构，CDNA 架构使用 ROCm 自主生态进行编写。AMD 的 ROCm 生态采取 HIP 编程模型，但 HIP 与 CUDA 的编程语法极为相似，开发者可以模仿 CUDA 的编程方式为 AMD 的 GPU 产品编程，从而在源代码层面上兼容 CUDA。所以从本质上来看，ROCm 生态只是借用了 CUDA 的技术，无法真正替代 CUDA 产生壁垒。

软硬件共同布局形成生态系统，造就英伟达核心技术壁垒。

 硬件端：基于 GPU、DPU 和 CPU 构建英伟达加速计算平台生态：

（1）主要产品 Tesla GPU 系列迭代速度快，从 2008 年至 2022 年，先后推出 8 种 GPU 架构，平均两年多推出新架构，半年推出新产品。超快的迭代速度使英伟达的 GPU 性能走在 AI 芯片行业前沿，引领人工智能计算领域发生变革。

（2）DPU 方面，英伟达于 2019 年战略性收购以色列超算以太网公司 Mellanox，利用其InfiniBand（无限带宽）技术设计出 Bluefield 系列 DPU 芯片，弥补其生态在数据交互方面的不足。InfiniBand 与以太网相同，是一种计算机网络通信标准，但它具有极高的吞吐量和极低的延迟，通常用于超级计算机的互联。英伟达的 Bluefield DPU 芯片可用于分担 CPU 的网络连接算力需求，从而提高云数据中心的效率，降低运营成本。

（3）CPU 方面，自主设计 Grace CPU 并推出 Grace Hopper 超级芯片，解决内存带宽瓶颈问题。采用 x86 CPU 的传统数据中心会受到 PCIe 总线规格的限制，CPU 到 GPU 的带宽较小，算效率受到影响；而 Grace Hopper 超级芯片提供自研 Grace CPU+GPU 相结合的一致内存模型，从而可以使用英伟达 NVLink-C2C 技术快速传输，其带宽是第 5 代 PCIe 带宽的 7 倍，极大提高了数据中心的运行性能。

相较于 A100 GPU，H100 性能再次大幅提升。在 H100 配备第四代 Tensor Core 和 Transformer引擎（FP8 精度），同上一代 A100 相比，AI 推理能力提升 30 倍。其核心采用的是 TSMC 目前最先进的 4nm 工艺，H100 使用双精度 Tensor Core 的 FLOPS 提升 3 倍。

在算力需求快速增长的进程中，国产 GPU 正面临机遇与挑战并存的局面。目前，国产 GPU 厂商的核心架构多为自研，难度极高，需投入海量资金以及高昂的人力和时间成本。由于我国 GPU 行业起步较晚，缺乏相应生态，目前同国际一流厂商仍存在较大差距。在中美摩擦加剧、经济全球化逆行的背景下，以海光信息、天数智芯、壁仞科技和摩尔线程等为代表的国内 GPU 厂商进展迅速，国产 GPU 自主可控未来可期。

以Open AI的算力基础设施为例，芯片层面 GPGPU 的需求最为直接受益，其次是 CPU、AI 推理芯片、FPGA 等。AI 服务器市场的扩容，同步带动高速网卡、HBM、DRAM、NAND、PCB 等需求提升。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4768

浏览量
129313
AI

AI

+关注

关注
87

文章
31493

浏览量
270158
算力

算力

+关注

关注
1

文章
1012

浏览量
14937

原文标题：大模型训练，英伟达Turing、Ampere和Hopper算力分析

文章出处：【微信号：AI_Architect，微信公众号：智能计算芯世界】欢迎添加关注！文章转载请注明出处。

通往AGI之路：揭秘英伟达A100、A800、H800、V100在高性能计算与大模型训练中的霸主地位

英伟达前段时间发布GH 200包含 36 个 NVLink 开关，将 256 个 GH200 Grace Hopper 芯片和 144TB 的共享内存连接成一个单元。除此之外，英伟

发表于 06-29 11:23 •2.9w次阅读

通往AGI之路：揭秘<b class='flag-5'>英伟</b><b class='flag-5'>达</b>A100、A800、H800、V100在高性能计算与大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>中的霸主地位

AIGC需求大爆发，英伟达算力芯片已涨价近四成

12月份开始上涨，截至2023年4月上半月，5个月价格累计涨幅达20.0%。目前，对于所有AI大模型而言，无论是推理还是训练，基本都是依赖英伟达

发表于 05-16 01:08 •3022次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

30 倍，能源效率提高了 25 倍。这些提升使得它能够更快地处理大规模的人工智能任务，加速模型的训练和推理过程。 **2. **超级计算机英伟达推出的 DGX GB200 超级计算

发表于 05-13 17:16

英伟达DPU的过“芯”之处

，从而在这两个领域更好地替代CPU，从而释放CPU的算力给到其他更多应用。英伟达在DPU上的技术突破，来自于去年收购以色列芯片制造公司Mellanox之后，在这家公司的硬件基础上开发出

发表于 03-29 14:42

英伟达H100 Transformer引擎加速AI训练准确而且高达6倍性能

Hopper 架构从头开始构建，凭借强大的算力和快速的内存来加速这些新一代 AI 工作负载，从而处理日益增长的网络和数据集。 Transformer 引擎是全新 Hopper 架构的

发表于 04-01 09:24 •4301次阅读

火种初现的国产GPU，谁能突破算力封锁？

事实上，英伟达与AI可谓是缘分不浅，截至目前，英伟达的GPU芯片正在为全球绝大多数的人工智能系统提供最基础的算

发表于 04-03 10:07 •1997次阅读

英伟达a100显卡算力介绍

英伟达a100显卡算力介绍英伟达A100显卡是一款专为数据中心设计的显卡，采用了全新的

发表于 08-07 17:59 •8922次阅读

英伟达A100的优势分析

英伟达A100的优势分析在大模型训练中，A100是非常强大的GPU。A100是英伟

发表于 08-08 15:25 •3387次阅读

英伟达A100的算力是多少？

，但 A100 的算力是前者的 20 倍。 A100是英伟达推出的一款强大的数据中心GPU，采用全新的Ampere架构。它拥有高达6，912

发表于 08-08 15:28 •3.8w次阅读

英伟达全球首发超级AI芯片训练大模型成本更低

黄仁勋向数千名开发者和图形专业人士发表讲话，宣布更新 GH200 Grace Hopper 超级芯片、英伟达 AI Workbench，并将把生成式 AI 引入英伟

发表于 08-09 14:42 •1212次阅读

模型“狂欢”之下，算力之困何解？

打造一个AI大模型究竟需要多少算力？公开数据显示，ChatGPT初始所需的算力就是1万块英伟达A

发表于 08-23 16:09 •807次阅读

英伟达H200算力怎么样

英伟达H200的算力非常强大。作为新一代AI芯片，H200在性能上有了显著的提升，能够处理复杂的AI任务和大数据分析。然而，具体的

发表于 03-07 16:15 •2292次阅读

英伟达静候新品来临，亚马逊暂缓购买Grace Hopper

今年3月，英伟达发布了全新的Blackwell处理器，距离前任产品Hopper的发布不过短短一年。英伟达首席执行官黄仁勋表示，新款产品在

发表于 05-22 09:07 •337次阅读

亚马逊AWS暂缓订购英伟达Grace Hopper，等待新品Grace Blackwel

今年 3 月，英伟达宣布了新款人工智能处理器Blackwell，比上一代Hopper提前不到一年面世。CEO黄仁勋表示，新产品在训练大规模语言模型

发表于 05-22 12:03 •684次阅读

软银升级人工智能计算平台,安装4000颗英伟达Hopper GPU

软银公司宣布，其正在扩展的日本顶级人工智能计算平台已安装了约4000颗英伟达Hopper GPU。这一举措显著提升了平台的计算能力。据悉，该平台自2023年9月开始运行，最初配备了大约2000颗

发表于 11-04 16:18 •482次阅读

搜索历史

大模型训练，英伟达Turing、Ampere和Hopper算力分析

评论

通往AGI之路：揭秘英伟达A100、A800、H800、V100在高性能计算与大模型训练中的霸主地位

AIGC需求大爆发，英伟达算力芯片已涨价近四成

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

英伟达DPU的过“芯”之处

英伟达H100 Transformer引擎加速AI训练准确而且高达6倍性能

火种初现的国产GPU，谁能突破算力封锁？

英伟达a100显卡算力介绍

英伟达A100的优势分析

英伟达A100的算力是多少？

英伟达全球首发超级AI芯片训练大模型成本更低

模型“狂欢”之下，算力之困何解？

英伟达H200算力怎么样

英伟达静候新品来临，亚马逊暂缓购买Grace Hopper

亚马逊AWS暂缓订购英伟达Grace Hopper，等待新品Grace Blackwel

软银升级人工智能计算平台,安装4000颗英伟达Hopper GPU