0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达Quantum-2 Infiniband平台技术

智能计算芯世界 来源:智能计算芯世界 2023-07-18 16:02 次阅读

随着大数据和人工智能等技术的快速发展,高性能计算需求日益增长。英伟达Quantum-2 Infiniband平台应运而生,为用户提供高速、低延迟的数据传输和处理能力,实现卓越的分布式计算性能。

Quantum-2采用最新一代NVIDIA Mellanox HDR 200Gb/s Infiniband网络适配器,支持高速数据传输和低延迟计算。结合NVIDIA GPU,实现加速计算和分布式存储,提高计算效率和资源利用率。

b8ce0c4e-24fa-11ee-962d-dac502259ad0.png

此外,Quantum-2还支持多种先进技术,如NVIDIA RDMA、NVLink和Multi-host等,实现数据中心范围内的高效数据传输和资源共享。用户可根据实际需求,搭建高性能计算集群或分布式存储系统,为大数据分析、人工智能、科学计算等领域提供强大支持。

Q:CX7 NDR 200 QSFP112能否兼容HDR/EDR线缆?

A:可以

b8f0d01c-24fa-11ee-962d-dac502259ad0.png

Q:CX7 NDR能否支持CR8模块?

A:CX7 NDR用Nvidia SR4多模或者DR4单模规格的模块,IB交换机侧使用SR8或者DR8模块。Q:CX7 Dual-port 400G能否bonding后达到800G,为啥200G bonding后能叠加达到400G?

A:目前CX7并没有双口400G配置,网络总性能由PCle带宽/网卡处理能力/网口物理带宽的瓶颈决定,PCle带宽上限为512G,网卡处理能力》400G,故双口200G bond可达到400G带宽。

Q:一分二线缆怎么连接

A:Al训练场景需配合NCCLSHARP通信环连接SU内不同节点的网卡。

Q:哪些卡是IB/ETH双模的,IB/ETH双模怎么切换

A:mlxconfig -d mlx5_x s LINK_TYPE_P1=1(Or 2)

b913e0b6-24fa-11ee-962d-dac502259ad0.png

Q: Superpod组网里,假如我每台服务器上配置4个NDR200的卡,那我能直接用一个一分四的线缆直接连接到同一个交换机上吗?还是说得用2根一分二的分别连不同的交换机?

A:不推荐,这种连接方式不符合SuperPoD组网规则,考虑到NCCL/SHARP性能,需要Leaf层交换机分别使用一分四线缆连接SU内不同服务器的NDR200端口,形成不同的通信环。

Q:Super Pod组网中,如果最后一个SU中,节点的数量不足32台,比如只有16台,那最后一个SU的Leaf交换机可以只用4台吗?这样会出现同一个节点的两个网卡接入到一个leaf交换机上,SHARP树会不会有问题?

A:可以但不推荐,NDR交换机可以支持64 SAT(SHARP Aggregation Tree)。

Q.NDR交换机上的同一个模块,一个口插NDR线缆,另一个口插NDR 200的一分二线缆吗?

A:可以,需要交换机侧做NDR口的端口分拆配置。

Q.有一个关于最新superpod组网的问题想咨询您一下,我看到最新的superpod组网白皮书是计算网络中单独配置2台IB交换机组UFM软件的网络,但是这样就导致了我集群会减少一台GPU节点。如果我不单独配置UFM交换机,只在管理节点部署UFM软件,在不占用计算网络的情况下通过另一套存储网络管理集群是否可以呢?

A:建议配置UFM设备(含软件),计算网内的管理节点部署UFM软件是可选方案,但该节点不应该承担GPU计算业务负载。 存储网络是单独组网的,是不同的网络平面,无法管理计算集群。

Q: UFM Enterprise,SDN, Telemetry, Cyber-Al有什么区别?是不是必须买UFM?

A:可使用OFED自带的opensm和命令脚本工具进行简单的管理和监控,但是不具备UFM友好的可视化界面,功能也少了很多。

b938665c-24fa-11ee-962d-dac502259ad0.png

Q:交换机的子网管理器,OFED的子网管理器,UFM,三个管理节点的数目是否有差异?客户部署时选择哪个比较合适?

A:管理交换机适合2K节点内的管理,UFM和OFED的openSM节点管理能力无限制,需要配合管理节点的CPU以及硬件处理能力。

Q: DAC ACC AOC Transceiver的区别,每种的限制。

A:连接距离,布线的难易程度如下图。

b94b3f48-24fa-11ee-962d-dac502259ad0.png

Q: 交换机 64 个 400Gb port, 为什么是 32 个 QSFP56 端口

A: 尺寸和功耗,2U 面板只能 32 cage;这是 OSPF 接口,支持两个 400G ports,NDR 交换机要把 cage 和 port 的概念区分清楚。

Q: 请问两端的模块不同,可以通过线缆链接起来打通数据吗?比如服务器这边是 OSFP,交换机是 QSFP112

A: IB 必须用我们的 module 和 cable,现在主要介绍 IB,IB 交换机只有是 OSFP;两侧的模块都要使用 NVIDIA 的推荐模块,可以支持

Q: UFM 可以用来监控 RoCE 网络吗

A: 不可以,只支持 IB

Q: UFM 跟有管理性 Switch 和非管性 switch, 功能性是否一樣

A: 一样

Q: IB 线缆在不影响传输带宽时延的前提下,最大支持多远的传输距离

A: 模块+cable,最远 500m,多模;DAC 铜缆 3m 以下,ACC 5m

Q: CX7 网卡开以太模式可以与其他家的 400G 支持 RDMA 的以太网交换机互联吗

A: 400G ethernet 互联可以,RDMA 是 RoCE,可以在这种情况下跑,性能没有保证;400G 以太网建议使用 BF3+Spectrum-4 组成的 Spectrum-X 平台

Q: NDR 兼容 HDR、EDR 的话,这种线缆和模块只有一体的吗?

A: 是的,没有分体的方案

Q: OSFP 网卡侧的模块应该是用的 flat 的吧?

A: 是的,网卡用 flat

Q: IB 卡开以太模式是不支持 RDMA 的吗?

A: 可以跑 RoCE,就是 RDMA over Ethernet,推荐用 Nvidia Spectrum-X solution

Q: BF3 现在量产了吗

A: 根据 OPN 不同,量产时间不同,具体跟负责 SA 联系,提供你需要的 OPN

Q: 为什么 NDR 的光缆是分开的,没有像 HDR 一样的那种 AOC 线缆呢

A: 混杂了单多模,风水冷,不同长度这些因素,AOC 一体的方案会非常复杂,部署也不灵活

Q: 请问 400G 的 IB 和 400G 的以太,除了光模块不一样,线缆是一样的吗

A: 光缆是相同的,注意是 APC 带 8 度斜角的类型

Q: CX7 网卡延时性能有具体要求么?在满内存,已绑核等最优调试环境下对于网络延时要求是?小于多少 us 算合适?

A: 这个跟测试机器的主频,配置都有关系,还跟测试用 perftest, mpi 工具都有关系,建议你联系负责 SA,给你提供具体支持

Q: OSFP 网卡侧的模块应该是用的 OSFP-flat 的吧?为啥会说用的是 OSFP-Riding Heatsink 的呢?

A: riding heatsink 指的是在 cage 上有个散热器

b97a682c-24fa-11ee-962d-dac502259ad0.png

Q: 这个集群方案里 ufm 的部分在哪里呢?想了解下这部分的作用

A: UFM 单独跑在 server 上,可以当做一个 node,可以 HA 接两台。 但不建议跑 UFM 的node 同时跑计算业务

Q: 集群规模多大的时候,建议推荐 UFM 呢?

A: IB 网络都建议配置,UFM 不只是 opensm,还有其他非常强大的管理和接口功能

A: 只要客户有网管需求,建议都配置 UFM

Q: PCIe 5 是否只有 512G 嗎?PCIe4 是多少

A: Gen5 32G*16=512G, Gen 4 16G*16=256G

Q: IB 卡有单工或者双工说法么

A: 都是双工;单工或者双工对于当前的设备来讲,只是概念而已 因为收和发物理通道已经分离了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1792

    文章

    47409

    浏览量

    238924
  • 网络适配器
    +关注

    关注

    0

    文章

    41

    浏览量

    11583
  • 英伟达
    +关注

    关注

    22

    文章

    3791

    浏览量

    91313
  • 大数据
    +关注

    关注

    64

    文章

    8896

    浏览量

    137517

原文标题:英伟达Quantum-2 Infiniband平台技术A&Q

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟加速Rubin平台AI芯片推出,SK海力士提前交付HBM4存储器

    日,英伟(NVIDIA)的主要高带宽存储器(HBM)供应商南韩SK集团会长崔泰源透露,英伟执行长黄仁勋已要求SK海力士提前六个月交付用于英伟
    的头像 发表于 11-05 14:22 455次阅读

    丹麦推出首台AI超级计算机Gefion

    超级计算机由1528个英伟H100 Tensor Core GPU驱动,并采用了英伟DGX SuperPOD架构设计。这些高性能计算单元通过英伟
    的头像 发表于 10-29 15:13 412次阅读

    英伟Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

    、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。   英伟称,Blackwell拥有6项革命性技术
    的头像 发表于 09-04 09:10 2933次阅读

    英伟高管解读Q2财报 但是英伟市值暴跌1.4万亿元

    英伟正式发布了2025财年第二季度报告,英伟公司在Q2营收达到了300.4亿美元,这个营收超过了市场预期的287亿美元,同比增长122%
    的头像 发表于 08-30 13:03 740次阅读

    英伟Blackwell架构揭秘:下一个AI计算里程碑?# 英伟# 英伟Blackwell

    英伟行业资讯
    jf_02331860
    发布于 :2024年08月26日 10:58:09

    英伟TITAN AI显卡曝光,性能狂超RTX 409063%!# 英伟# 显卡

    显卡英伟
    jf_02331860
    发布于 :2024年07月24日 17:18:28

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    ,第五代NVLink、InfiniBand网络和NVIDIA Magnum IO™软件的支持,确保企业和广泛GPU计算集群的高效可扩展性。 HGX B200 深度学习推理能力 英伟第五代 NVLink
    发表于 05-13 17:16

    新思科技携手英伟:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    将双方数十年的合作深入扩展到新思科技EDA全套技术栈 摘要: 新思科技携手英伟,将其领先的AI驱动型电子设计自动化(EDA)全套技术栈部署于英伟
    发表于 03-20 13:43 287次阅读
    新思科技携手<b class='flag-5'>英伟</b><b class='flag-5'>达</b>:基于加速计算、生成式AI和Omniverse释放下一代EDA潜能

    NVIDIA推出X800网络交换机平台,实现800Gb/s端到端吞吐量

     X800系列包括InfiniBand适用的Quantum-X800和标准以太网适用的Spectrum-X800两个产品线。前者以最高性能理念设计,家族成员包括英伟
    的头像 发表于 03-19 13:48 1129次阅读

    英伟公布了其新的6G研究云平台

    3月19日消息,在年度GTC AI活动中,英伟公布了其新的6G研究云平台,5G公众号了解到这是一种“三管齐下”的方法,致力于让英伟芯片和
    的头像 发表于 03-19 11:04 1024次阅读

    英伟GTC大会即将召开,聚焦AI与机器人技术前沿

    备受瞩目的英伟GTC大会将于3月18日至21日盛大举行。作为英伟每年最重要的技术发布平台,G
    的头像 发表于 03-18 11:31 1024次阅读

    英伟为什么越涨越便宜?英伟的市盈率一直在下降?

    英伟为什么越涨越便宜?英伟的市盈率一直在下降? 在2023年英伟的股价涨了两倍多;龙年开年
    的头像 发表于 03-12 18:02 1825次阅读

    英伟市值逼近2万亿美元,涨疯了

    ABSTRACT摘要英伟公布了截至2024年1月28日的2024财年第四财季业绩:营收同比大增265%,每股收益同比暴增765%,连续三个季度创纪录。JAEALOT2024年2月22日当地时间
    的头像 发表于 03-05 08:25 349次阅读
    <b class='flag-5'>英伟</b><b class='flag-5'>达</b>市值逼近<b class='flag-5'>2</b>万亿美元,涨疯了

    英伟市值1.96万亿美元

    英伟市值1.96万亿美元 英伟股价一天之内大涨16%;英伟股价涨到785.38美元,市值1
    的头像 发表于 02-24 15:22 943次阅读