0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI时代,你需要了解的GPU互联技术:NVLink、IB、ROCE

sakobpqhz 来源:算力基建 2023-12-13 16:26 次阅读

AI 时代 GPU 成为核心处理器,分布式训练诉求提升。GPU 采用并行计算方式,擅长处理大量、简单的运算,因此多适用于图像图形处理和 AI 推理。但是大模型复杂度日益提升,单卡 GPU 显存有限,无法满足训练需求,比如百度文心一言大模型有 2600 亿个参数,但是实际上一个 80G 显存的 A800,算上训练中间的计算状态,只能存放 10-20 亿参数,存放 2600 亿的模型就需要 100-200 块 GPU;此外,后续大模型训练需要更多参数和更多计算,由此产生的 GPU 需求更为庞大。为适应算力需求,需要联合多张 GPU 甚至多台服务器协同工作,分布式训练成为核心训练方式。

网络连接在分布式系统中担任重要角色。网络在分布式系统中提供了连接作用,可以根据连接层级区分为单卡、多卡、多机互联,单卡内的网络为计算用的神经网,多卡之间的连接(即 GPU 互联)通常采用 PCIe 或各种高带宽通信网络,多机之间的连接(即服务器互联)通常采用 RDMA 网络。

总线是数据通信必备管道,PCIe 是最泛使用的总线协议。总线是服务器主板上不同硬件互相进行数据通信的管道,对数据传输速度起到决定性作用,目前最普及的总线协议为英特尔 2001 年提出的 PCIe(PCI-Express)协议,PCIe 主要用于连接 CPU 与其他高速设备如 GPU、SSD、网卡、显卡等,2003 年 PCIe1.0 版本发布,后续大致每过三年会更新一代,目前已经更新到6.0版本,传输速率高达64GT/s,16通道的带宽达到256GB/s,性能和可扩展性不断提高。

PCIe 总线树形拓扑和端到端传输方式限制了连接数量和速度,PCIe Switch 诞生。PCIe采用端对端数据传输链路,PCIe 链路的两端只能各接入一个设备,设备识别数量有限,无法满足有大量设备连接或需要高速数据传输的场景,因此 PCIe Switch 诞生。PCIe Switch 具备连接和交换双重功能,可以让一个 PCIe 端口识别和连接更多设备,解决通道数量不够的问题,并可以将多条 PCIe 总线连接在一起,从而形成一个高速网络,实现多设备通信,简言之 PCIe Switch 相当于 PCIe 的拓展器。

f0b2d81e-9990-11ee-8b88-92fbcf53809c.png

GPU 互 联 时 代 , PCIe 传 输 速 率 和 网 络 延 迟 无 法 满 足 需 求 ,NVLINK、CAPI、GenZ、CCIX、CXL 等“百家争鸣”时代开启。AIGC 的发展极大刺激算力需求的增加,GPU 多卡组合成为趋势,GPU 互联的带宽通常需要在数百 GB/S以上,PCIe 的数据传输速率成为瓶颈,链路接口的串并转换会网络延时,影响 GPU 并行计算效率,还由于 GPU 发出的信号需要先传递到 PCIe Switch,PCIe Switch 涉及到数据的处理又会造成额外的网络延时,此外 PCIe 总线与存储器地址分离,每次访问内存会加重网络延迟,因此 PCIe 协议在 GPU 多卡通信中效率并不高。为了将总线通信效率提升,降低延时,各家纷纷推出替代协议:

CAPI 协议:由 IBM 最早推出,后逐渐演化成 Open CAPI,本质是现有高速 I/O 标准之上的应用程序扩展,添加了缓存一致性和更低延迟等内容,但由于 IBM 服务器份额的持续下降,CAPI 协议缺少用户基础,最终未能广泛流传。

GenZ 协议:GenZ 是不依赖于任何芯片平台的开放性组织,众多厂家参与其中包括AMDARM、IBM、Nvidia、Xilinx 等,GenZ 将总线协议拓展成交换式网络并加入GenZSwitch 提高了拓展性。

CXL 协议(陆续兼并上述两个协议):2019 年由 Intel 推出,与 CAPI 协议思路类似,2021 年底吸收 GenZ 协议共同发展,2022 年兼并 Open CAPI 协议,CXL 具备内存接口,逐渐成长为设备互连标准的重要主导协议之一。

CCIX 协议:ARM 加入的另一个开放协议,功能类似 GenZ 但未被吸收兼并。

NVLINK 协议:英伟达提出的高速 GPU 互联协议,对比传统 PCIe 总线协议,NVLINK主要在三个方面做出较大改变:1)支持网状拓扑目,解决通道有限问题;2)统一内存,允许 GPU 共享公共内存池,减少 GPU 之间复制数据的需要,从而提高效率;3)直接内存访问,不需要 CPU 参与,GPU 可直接读取彼此的内存,从而降低网络延迟。此外,为解决 GPU 之间通讯不均衡问题,英伟达还引入 NVSwitch,一种类似交换机 ASIC 的物理芯片,通过 NVLink 接口将多个 GPU 高速互联,创建高带宽多节点 GPU 集群。2023 年 5 月 29 日,英伟达推出 AI 超级计算机 DGX GH200,通过 NVLink 和 NVSwitch 连接 256 个 GH200 芯片,所有 GPU 连接成一个整体协同运行,可访问内存突破 100TB。

f0c5f778-9990-11ee-8b88-92fbcf53809c.png

多机互联:IB 网络与以太网络并存

分布式训练下 RDMA 网络成为最佳选择,包含 IB 网络和以太网络。传统的 TCP/IP 网络通信是通过内核发送消息,涉及较多数据移动和数据复制,不适用高性能计算、大数据分析等需要 IO 高并发、低时延的场景。RDMA 是一种计算机网络技术,可以直接远程访问内存数据,无需操作系统内核介入,不占用 CPU 资源,可以显著提高数据传输的性能并且降低延迟,因此更适配于大规模并行计算机集群的网络需求。目前有三种 RDMA:Infiniband、RoCE、iWARP,后两者是基于以太网的技术:

f0e0d372-9990-11ee-8b88-92fbcf53809c.png

Infiniband:是专为 RDMA 设计的网络,从硬件级别保证可靠传输,具备更高的带宽和更低的时延。但是成本高,需要配套 IB 网卡和 IB 交换机。

RoCE:基于以太网做 RDMA,可以使用普通的以太网交换机,成本较低,但是需要支持 RoCE 的网卡。

iWARP:基于 TCP 的 RDMA 网络,利用 TCP 达到可靠传输。相比 RoCE,在大型组网的情况下,iWARP 的大量 TCP 连接会占用大量的内存资源,对系统规格要求更高。可以使用普通的以太网交换机,但是需要支持 iWARP 的网卡。

f0ef8c96-9990-11ee-8b88-92fbcf53809c.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据传输
    +关注

    关注

    9

    文章

    1823

    浏览量

    64464
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128674
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268344

原文标题:AI时代,你需要了解的GPU互联技术:NVLink、IB、ROCE

文章出处:【微信号:算力基建,微信公众号:算力基建】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    GPU集群组网技术详解

    ​ 流行的GPU/TPU集群网络组网,包括:NVLink、InfiniBand、ROCE以太网Fabric、DDC网络方案等,深入了解它们之间的连接方式以及如何在LLM训练中发挥作用
    的头像 发表于 12-25 10:11 4954次阅读
    <b class='flag-5'>GPU</b>集群组网<b class='flag-5'>技术</b>详解

    AI训练,为什么需要GPU

    随着由ChatGPT引发的人工智能热潮,GPU成为了AI大模型训练平台的基石,甚至是决定性的算力底座。为什么GPU能力压CPU,成为炙手可热的主角呢?要回答这个问题,首先需要了解当前人
    的头像 发表于 04-24 08:05 1075次阅读
    <b class='flag-5'>AI</b>训练,为什么<b class='flag-5'>需要</b><b class='flag-5'>GPU</b>?

    RoCEIB对比分析(一):协议栈层级篇

    AI 算力建设中, RDMA 技术是支持高吞吐、低延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和RoCE(基于RDMA的以太网
    的头像 发表于 11-15 13:58 749次阅读
    <b class='flag-5'>RoCE</b>与<b class='flag-5'>IB</b>对比分析(一):协议栈层级篇

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    1.8TB的GPUGPU互连速度、InfiniBand网络和NVIDIA Magnum IO™软件的第五代NVLink技术,GB200 NVL72性能显著提升。 此外,GB200 N
    发表于 05-13 17:16

    吴霁虹:AI时代是否会变成「数据奴隶」?

    什么是「数据奴隶」?AI时代创新者通过先进算法、大数据等相关技术,为城市管理、公安、医疗、客服等众多领域注入了新鲜的活力,带来了翻天覆地的变化。伴随着AI
    发表于 06-27 20:42

    特斯拉V100 Nvlink是否支持v100卡的nvlink变种的GPU直通?

    /4029/SYS-4029GP-TVRT.cfm)我们正试图做pci将GPU直接传输到VM中但是当我们通过pci设备并安装驱动程序时,我们会从nvidia-nvlink模块中获得错误。是否支持v100卡的nvlink
    发表于 09-12 16:25

    SAW和BAW滤波器需要了解这些

    SAW和BAW滤波器需要了解这些
    发表于 05-24 06:41

    为什么要了解电机的工作原理

    ,家里的电器基本都会瘫痪,所以即使不是电子行业从业人员,也有必要了解电机,知道电机为什么能够运转。本文力求用简洁易懂的图片和动画演示,来说明电机的工作原理,相信看完本篇文章,电机就不再是那个,
    发表于 08-27 06:49

    英伟达GPU卡多卡互联NVLink,系统累积的公差,是怎么解决的?是连接器吸收的?

    英伟达不断推出GPU卡,并且实现多卡互联NVLink,实际整个系统会累积到一个较大的公差,而目前市面上已有的连接器只能吸收较少的公差,这个是怎么做到匹配的呢?
    发表于 03-05 16:17

    需要了解的嵌入式Linux

    需要了解的嵌入式Linux 今天,Linux 正广泛应用于各种嵌入式设备的开发中,如数字电视、机顶盒、DVR播放器、xDSL/有线/PON调制解调器、家用路由器和网关。它尤其适
    发表于 01-18 16:19 701次阅读
    <b class='flag-5'>你</b><b class='flag-5'>需要了解</b>的嵌入式Linux

    替换滚珠螺杆需要了解哪些参数?

    替换滚珠螺杆需要了解哪些参数?
    的头像 发表于 09-08 17:47 862次阅读
    替换滚珠螺杆<b class='flag-5'>需要了解</b>哪些参数?

    我们为什么需要了解一些先进封装?

    我们为什么需要了解一些先进封装?
    的头像 发表于 11-23 16:32 547次阅读
    我们为什么<b class='flag-5'>需要了解</b>一些先进封装?

    NVLink的演进:从内部互联到超级网络

    NVLink是NVIDIA开发的一种高速、低延迟的互联技术,旨在连接多个GPU以实现高性能并行计算。与传统的PCIe总线相比,NVLink
    的头像 发表于 04-13 11:22 1085次阅读
    <b class='flag-5'>NVLink</b>的演进:从内部<b class='flag-5'>互联</b>到超级网络

    全面解读英伟达NVLink技术

    NVLink是一种解决服务器内GPU之间通信限制的协议。与传统的PCIe交换机不同,NVLink带宽有限,可以在服务器内的GPU之间实现高速直接互连。第四代
    发表于 04-22 11:01 1236次阅读
    全面解读英伟达<b class='flag-5'>NVLink</b><b class='flag-5'>技术</b>

    RoCEIB对比分析(二):功能应用篇

    在上一篇中,我们对RoCEIB的协议栈层级进行了详细的对比分析,二者本质没有不同,但基于实际应用的考量,RoCE在开放性、成本方面更胜一筹。本文我们将继续分析RoCE
    的头像 发表于 11-15 14:03 136次阅读
    <b class='flag-5'>RoCE</b>与<b class='flag-5'>IB</b>对比分析(二):功能应用篇