0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Blackwell平台网络配置分析

智能计算芯世界 来源:智能计算芯世界 2024-04-17 11:01 次阅读

本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品,包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡(InfiniBand 方案)、ETH Spectrum X800 交换机和 BF3 网卡(以太网方案)。

1. Blackwell 平台网络配置分析

从网络配置的角度,英伟达提供了第五代 NVLINK、第六代 PCIE、单端口800Gbit/s 的 IB 和以太网网卡、1.6T 光模块需求。从目前英伟达公布的产品介绍看,这些升级后的网络能力可能不会第一时间全部配置在最新的 DGX B200 服务器上,而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看,DGX B200 服务器配置 8 颗 NVIDIA B200 Tensor Core GPUs,4 个 800G OSPF 光模块,最大功耗为 14.3kW。

2 DGX GB200: NVLink domain 提升至 576 GPUs

采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。每个液冷机架配备 36 个 NVIDIA GB200 Grace Blackwell 超级芯片(36 个 NVIDIA Grace CPU 和 72 个 Blackwell GPU),与 NVIDIA NVLink 连接为一体。多个机架与 NVIDIA Quantum InfiniBand 连接,可扩展到数万个 GB200 超级芯片。

GB200 可以在单机柜内搭建包含 36 个或者 72 个 GPU 的 NVLink domain。一个机柜内包含 18 个计算节点和 9 台 L1 NVLink Switch。基于第五代 NVLink 技术,每个 NVLink 交换机可以提供 144 个 100GB NVLink 端口。通过机柜内的 9 个 L1NVLink Switch 可以合计 提 供 1296 个 100GB NVLink 端口 ,机柜 内的每 个Blackwell GPUs 可以获得 18 个端口,合计 1.8T 的 NVLink 带宽。

GB200 NVL72 使用了一个定制化的 Copper cable cartridge 实现机柜内 9 个L1 NV Switch 和 18 个计算节点的 NVLink 连接。英伟达介绍 NVIDIA GB200 NVL72可以在一个 NVLink domain 内连接 576 个 GPU。英伟达当前公布的 GB200 NVL72 配置了 72 个 CX7 网口(OSFP 400Gb/s InfiniBand),并没有使用最新的 CX8 网卡。

3 全新 IB 交换机,双层胖树支持万卡集群

NVIDIA Quantum-X800 Q3400-RA 是一台 4U 的 IB 交 换机 ,对比 上一 代Quantum-9700 交换机设备尺寸提升了一倍。Quantum-X800 也是英伟达第一款使用200Gb/s-per-lane SerDes 方案的交换机设备,通过 72 个 OSPF 1.6T 光模块提供144 个 800G 端口。英伟达指出,基于 Quantum-X800 的高性能,两层胖树网路拓扑就可以连接 10386 个网络接口卡。

GTC 大会上,英伟达推出的 Spectrum-X800 SN5600 是一台 51.2T 端口容量的以太网交换机,可以配置 64 个 OSPF 800G 光模块。

4 新平台依然需要 800G 和 400G 光模块

从 GTC 大会的介绍看,BLACKWELL 平台会带来第五代 NVLINK、第六代 PCIE、第八代 IB 网络应用。但是在当前早期交付的产品中依然会采用 800G 和 400G 光模块。其中 DGX B200 服务器配置通过 4 个 800G OSPF 光模块提供 8 个 400G 端口,这和DGX H100 服务器的配置相同。

我们认为 B200 GPU 和 800 光模块的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 个 OSPF 400G 光模块,以便通过 IB 网络实现万卡集群的连接。

5 新的IB网络带来1.6T光模块需求

NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 则明确需要配置 1.6T 光模块。和上一代 IB 网络相比,主要的变化是 Quantum-X800 的端口能力提升至 115.2T,可以通过两层胖树拓扑实现 10386 个网络接口卡的连接,万卡规模 Blackwell GPU 集群使用 IB 网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势,提升 IB 网络方案的竞争力。

6 NVLink domain 容量扩展带来新增的铜缆连接需求

通过第五代 NVLINK 从 900GB 提升至 1800GB,单个 NVLINK domain 的 GPU 数量提升至 576 个。最大的变化是 L1 NV Switch 从服务器 PCB 板载芯片的形式调整为机柜内的 9 台交换机,连接能力提升至 72 个 GPU,需要使用铜缆实现机柜内的NVLINK 连接。

而如何实现 576 个 GPU 连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的 IB 交换机能力,我们认为连接 576 个 GPU 需要 L2 NV Switch。最终的方案使用铜缆还是光模块,核心是铜缆的连接距离是否可以满足 8 个机柜的连接需求,低成本的铜缆连接方案会是优先选项。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5378

    浏览量

    171126
  • 交换机
    +关注

    关注

    21

    文章

    2622

    浏览量

    99267
  • 光模块
    +关注

    关注

    76

    文章

    1240

    浏览量

    58889
  • 网络配置
    +关注

    关注

    1

    文章

    22

    浏览量

    7579
  • 英伟达
    +关注

    关注

    22

    文章

    3748

    浏览量

    90836

原文标题:英伟达Blackwell平台网络配置详解

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟Blackwell GPU未来一年订单爆满

    据摩根士丹利(大摩)透露,人工智能(AI)芯片领域的领军企业英伟(NVIDIA)的管理层在近期的一系列与投资人的会议中,分享了关于其下一代绘图处理器(GPU)Blackwell的强劲市场需求情况。
    的头像 发表于 10-17 16:52 486次阅读

    英伟Blackwell芯片量产加速,Q4预计出货45万片

    摩根士丹利最新发布的报告揭示了英伟在AI芯片领域的重大进展,其最新力作Blackwell芯片已成功步入量产阶段,预示着英伟有望在今年第四
    的头像 发表于 09-27 15:02 827次阅读

    英伟Blackwell GPU量产加速,Q4营收冲刺百亿美元大关

    近日,全球领先的图形处理单元(GPU)及人工智能芯片制造商英伟传来重大利好消息。据摩根士丹利最新发布的行业分析报告指出,英伟基于
    的头像 发表于 09-26 15:58 293次阅读

    英伟Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

    。                       英伟Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟芯片组成,包括
    的头像 发表于 09-04 09:10 2824次阅读

    英伟Blackwell架构揭秘:下一个AI计算里程碑?# 英伟# 英伟Blackwell

    英伟行业资讯
    jf_02331860
    发布于 :2024年08月26日 10:58:09

    英伟Blackwell芯片已投产,预告未来AI芯片发展

    英伟创始人兼CEO黄仁勋近日宣布,公司旗下的Blackwell芯片已正式投入生产。这款芯片是英伟在AI领域的重要突破,预计将为未来的智能
    的头像 发表于 06-04 09:23 1940次阅读

    英伟或将推出融合Arm与Blackwell内核的AI PC芯片

    近日,业内传出英伟正在研发一款全新芯片的传闻。据悉,这款芯片将结合下一代Arm Cortex CPU内核与英伟自家的Blackwell
    的头像 发表于 05-31 10:31 570次阅读

    英伟业绩强劲,Blackwell AI芯片助推下一波增长 

     在与分析师的电话会议上,英伟首席执行官黄仁勋透露,公司即将推出的Blackwell AI芯片将于本季度发货,下季度产量将有所提升,“随着下一代B
    的头像 发表于 05-23 15:55 462次阅读

    亚马逊AWS暂缓采购英伟GH200芯片,期待Blackwell更强

    然而,AWS对此予以澄清,称实际上并未取消任何对英伟的订单。据其代表解释,此次从Grace Hopper芯片转向Blackwell芯片的调整仅限于AWS与英伟
    的头像 发表于 05-22 15:05 661次阅读

    亚马逊未中断英伟订单,等待Grace Blackwell更强性能

    英国《金融时报》昨日报道称,亚马逊AWS已暂停订购英伟最新款“超级芯片”Grace Hopper,等待性能更强的新品Grace Blackwell(GH200)。此举引发市场担忧,认为英伟
    的头像 发表于 05-22 11:00 438次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    千万亿次浮点运算。 英伟还构建了由72张GB200构成的DGX GB200 NVL72[超级计算机]。该超级计算机在内部节点间使用铜缆连接,以降低功耗。 Blackwell 图形处理器采用双芯片
    发表于 05-13 17:16

    英伟发布新一代AI芯片架构Blackwell GPU

    近日,英伟首席执行官黄仁勋在GTC 2024会议上发表主题演讲,重磅推出全新AI芯片架构Blackwell GPU。这一创新技术的首款芯片产品命名为GB200,标志着英伟
    的头像 发表于 03-26 11:19 823次阅读

    英伟发布最强AI加速卡Blackwell GB200

    英伟在最近的GTC开发者大会上发布了其最新、最强大的AI加速卡——GB200。这款加速卡采用了新一代AI图形处理器架构Blackwell,标志着英伟
    的头像 发表于 03-20 11:38 1069次阅读

    英伟宣布推出新一代GPU Blackwell,SK海力士已量产HBM3E

    英伟GTC 2024大会上,英伟CEO黄仁勋宣布推出新一代GPU Blackwell,第一款Bla
    的头像 发表于 03-20 11:32 1128次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>宣布推出新一代GPU <b class='flag-5'>Blackwell</b>,SK海力士已量产HBM3E

    英伟最新一代AI芯片Blackwell GPU,AI算力能力较上代提升30倍!

    黄仁勋说:"我们已经来到了一个临界点,因此需要一种新的计算方式来加速整个行业的发展效率。那么英伟能够做什么?当然,答案就是——更大的芯片。”接着,英伟新一代图形计算
    的头像 发表于 03-19 13:39 1704次阅读