DGX-2为什么被称为全球最大GPU-电子发烧友网

今年早些时候，NVIDIA首席执行官黄仁勋发布了NVIDIA® DGX-2™服务器，并称其为“全球最大GPU”。DGX-2在单一系统中包含了16个NVIDIA Tesla™ V100 32 GB GPU和其他顶级组件（两个24核Xeon CPU、1.5 TB DDR4 DRAM内存和30 TB NVMe存储），通过基于NVSwitch的NVLink结构连接，可提供2 petaFLOPS的性能，堪称最强大的超级计算机之一。

NVSwitch使DGX-2成为了最大的GPU，这意味着其总体并非各部分的简单加成。事实证明，让DGX-2服务器能够称得上“全球最大GPU”的，正是其中看似最不起眼的部分。让我们来看看创新NVIDIA NVSwitch™芯片及其他工程特性如何使DGX-2成为了全球最大的GPU。

注：本文中的信息来自于Alex Ishii 和 Denis Foley 在Hot Chip 2018大会上的专题演示“NVSwitch and DGX‑2 – NVIDIA NVLink-Switching Chip and Scale-Up GPU-Compute Server”。

单一GPU

让我们先看看单一多核GPU如何与CPU交互，如图1所示。程序员通过NVIDIA CUDA®技术明确地展现了并行工作。工作流经PCIe I / O端口进入GPU，其中数据由GPU驱动程序分发到可用的图形处理群集（GPC）和流式多处理器（SM）内核。XBAR的采用让GPU / SM内核能够在L2高速缓存和高带宽GPU内存（HBM2）上交换数据。

GPC和GPU内存之间的高带宽可实现大规模计算能力和快速同步，但规模受限，因其要求数据必须适合本地GPU内存，才能有效使用XBAR提供的高带宽。

图1. 连接到CPU的单一GPU

双GPU（PCIe和NVLink）

图2显示了添加另一个GPU是如何增加可用GPU内存量的。在所示配置中，GPU只能以PCIe提供的32 GBps的最大双向带宽，访问其他GPU上的内存。此外，这些交互会与总线上的CPU操作竞争，甚至进一步占用可用带宽。

图2. 通过PCIe总线连接的双GPU

NVIDIA NVLink™技术使GPC无需通过PCIe总线即可访问远程GPU内存，如图3所示。NVLinks实现了XBAR之间的有效桥接。V100 GPU上最多可采用六个NVLink，GPU之间的双向带宽可达300 GBps。但是，在具有两个以上GPU的系统中，六个可用的NVLink必须先分成较小的链接组，每个组专用于访问不同的特定单一GPU。这就限制了可使用直接连接来构建的机器规模，并降低了每对GPU之间的带宽。

图3. 通过NVLink技术连接的双GPU

Super Crossbar将GPU连接在一起

理想的情况是提供某种交叉，让更多GPU能够访问所有GPU内存，所有GPU都可能在单一GPU驱动程序实例的控制下，如图4所示。有了这样的交叉，可在没有其他进程干预的情况对GPU内存进行访问，且可用带宽将足够高，可提供类似于上文所述的双GPU情况下的性能扩展。

图4. 寻找交叉开关设备

最终目标是提供以下所有内容：

更大的问题规模容量。大小受整个GPU集合的GPU内存容量限制，而非单一GPU容量。

强大的可扩展性。与现有解决方案相比，NUMA效应将大大降低。总内存带宽实际上会随GPU数量而增长。

使用便利。针对较少数量的GPU编写的应用程序将更易于移植。此外，丰富的资源可助力快速开展实验。

以上16-GPU配置（假设有32GB V100 GPU）产生的总容量使其能够前所未有地运行“一个超强GPU”的计算。

NVIDIA NVSwitch介绍

NVSwitch（图5）是一款GPU桥接设备，可提供所需的NVLink交叉网络。端口逻辑模块中的数据包转换使得进出多GPU的流量看似是通过单一GPU的。

图5. 带有标注的NVSwitch芯片裸片

NVSwitch芯片并行运行，以支持数量日益增加的GPU之间的互连。可使用三个NVSwitch芯片构建一个8 GPU封闭系统。两条NVLink路径将每个GPU连接至每台交换机，流量在所有NVLink和NVSwitch之间交叉。 GPU使用任意对之间的300 GBps双向带宽成对通信，因为NVSwitch芯片提供了从任何源到任何目的地的唯一路径。

图6. NVSwitch框图

实现了对分带宽

让每个GPU从另一个GPU读取数据，而不会有两个GPU从同一远程GPU读取数据，就实现了无干扰的成对通信能力。使用16个GPU实现的1.98 TBps读取带宽与128B传输在理论上80％的双向NVLink效率相匹配。

图7. 实现的对分带宽结果

使用cuFFT（16K X 16K）

实现更强大的可扩展性

通过在越来越多的GPU上（更高的GFLOPS，相应的总运行时间却更短）、以及搭载V100 GPU的NVIDIA DGX-1服务器上运行“iso-problem instance”计算进行对比，即能证明其强大的可扩展性能，如图8所示。如果没有NVSwitch网络提供的NVLink交叉，由于问题分散在更多GPU上，传输数据所需的时间要长于在本地对相同数据进行简单计算所需的时间。

图8. 使用NVLink与Hybrid Cube Mesh的cuFFT结果

全归约基准测试

图9也体现了NVLink交叉的优势。全归约基准测试是对机器学习应用程序中采用的重要通信原语进行的测量。与两台配备八个GPU的服务器（通过InfiniBand连接）相比，NVLink交叉让16 GPU DGX-2服务器能够提供更高带宽和更低延迟。针对较小的信息，NVLink网络的效率明显优于InfiniBand。

图9. 全归约基准测试结果显示NVLink与InfiniBand带宽效率的显著差异

HPC和AI训练基准测试的加速

图10所示，与总GPU数相同的两台DGX-1（采用V100）服务器相比，HPC和AI训练基准测试性能得以提升，速度达到了其2到2.7倍。对比所用的DGX-1服务器各采用了8个Tesla V100 32 GB GPU和双槽Xeon E5 2698v4处理器。服务器通过四个EDR IB / GbE端口连接。

图10. HPC和AI训练基准测试的加速

总结

正因有了NVSwitch芯片，DGX-2才可谓全球最大GPU。NVSwitch是一种畅通无阻的设备，具有18个NVLink端口，每端口51.5 GBps，聚合双向带宽达928 GBps。采用了NVSwitch芯片的DGX-2可提供512 GB的总容量，针对特定应用的性能表现超过InfiniBand连接的一对DGX-1服务器的两倍。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5107

浏览量
104466
gpu

gpu

+关注

关注
28

文章
4830

浏览量
129778

原文标题：全球最大GPU 背后的秘密：NVSwitch如何实现NVIDIA DGX-2的超强功力？

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

OpenVINO™检测到GPU，但网络无法加载到GPU插件，为什么？

到 GPU 插件。遇到的错误： OpenVINOException: cldnn program build failed! Program build failed(2_part_0)

发表于 03-05 06:01

ASIC和GPU的原理和优势

本文介绍了ASIC和GPU两种能够用于AI计算的半导体芯片各自的原理和优势。 ASIC和GPU是什么 ASIC和GPU，都是用于计算功能的半导体芯片。因为都可以用于AI计算，所以也被称为

发表于 01-06 13:58 •920次阅读

《CST Studio Suite 2024 GPU加速计算指南》

。 2. 操作系统支持：CST Studio Suite在不同操作系统上持续测试，可在支持的操作系统上使用GPU计算，具体参考相关文档。 3. 许可证：GPU计算功能通过CST Studio Suite

发表于 12-16 14:25

【一文看懂】大白话解释“GPU与GPU算力”

GPU与GPU算力1.GPU是什么？2.GPU与CPU的区别？3.GPU算力是什么？4.哪些因素影响了G

发表于 10-29 08:05 •1403次阅读

为什么被称为超级电容？超级电容怎么用？

说起电容的作用，很多电子人脱口而出：滤波。没错，这是大部分电容在电路中的作用，但有一种电容生而不是为了滤波，那就是超级电容。本期贸泽科普实验室，momo就为大家说一说超级电容。

发表于 10-24 10:15 •1408次阅读

NVIDIA DGX B200首次面向零售市场:配备8块B200 GPU

10月13日最新消息，NVIDIA的DGX B200 AI服务器近期已在Broadberry上架，标价515，410美元（相当于约364.2万元人民币）。　　自发布以来，Blackwell架构就备受业界瞩目，NVIDIA首席执行官黄仁勋对其赞誉有加，微软、Meta等科技巨头也迅速跟进采用。

发表于 10-14 14:34 •1163次阅读

TI TDA2x SoC上基于GPU的环视优化

电子发烧友网站提供《TI TDA2x SoC上基于GPU的环视优化.pdf》资料免费下载

发表于 10-10 09:14 •0次下载

3DP工艺最大的优势是什么

3DP（Three Dimensional Printing and Gluing）工艺，也被称为三维打印黏结成型、喷墨沉积或粘合喷射、喷墨粉末打印，是一种先进的3D打印技术。其最大的优势主要体现在以下几个方面：

发表于 09-16 15:37 •1182次阅读

被称为“小号HBM”，华邦电子CUBE进阶边缘AI存储

电子发烧友网报道（文/黄晶晶）与AI训练以GPU搭配HBM不同，边缘AI采用何种内存方式，DDR、GDDR、LPDDR等适用于不同的场景。日前，华邦电子产品总监朱迪接受包括电子发烧友网在内的媒体采访

发表于 07-01 16:21 •3512次阅读

聚徽触控-GPU 工控机是什么产品

图像处理器（Graphics Processing Unit，简称 GPU），又被称为视觉处理单元、图形核心，其设计专注于特定的任务，主要用于加速帧缓冲区中实时的 3D 图像构建以及显示相关的电子运算。通常，GPU 与中央处理器

发表于 06-14 09:57 •341次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

百亿亿次计算和万亿参数模型提供基础 NVIDIA推出世界首个高速GPU互连技术NVLink™，提供的速度远超基于PCIe的解决方案，是多GPU系统扩展内存和性能的理想选择。NVLink为处理最大视觉

发表于 05-13 17:16

OpenAI联手Nvidia发布首台Nvidia DGX H200

OpenAI总裁兼联合创始人Greg Brockman分享了他与山姆・阿尔特曼（Sam Altman）、黄仁勋以及自己的合影，他们的眼前正是这台首次亮相的DGX H200。

发表于 04-25 13:50 •548次阅读

聊聊GPU背后的大赢家-HBM

HBM全称为High Bandwidth Memory，直接翻译即是高带宽内存，是一款新型的CPU/GPU内存芯片。

发表于 04-20 15:27 •1724次阅读

NVIDIA Blackwell DGX SuperPOD助力万亿级生成式AI计算

全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构，基于 NVIDIA DGX GB200 系统构建而成，在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存，且可通过增加机架来扩展性能。

发表于 03-21 09:49 •287次阅读

英伟达推出百亿参数AI模型处理方案——DGX SuperPOD

据悉，新型DGX SuperPOD采用全新的高效水冷机架式设计，搭载英伟达DGX GB200系统，FP4精度下具备11.5 exaflops的人工智能超级计算力以及240 terabytes的高速内存。用户可以通过加装机架进行持续扩充。

发表于 03-19 14:35 •881次阅读