0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聊聊交换机和AI有什么关系?

架构师技术联盟 来源:架构师技术联盟 2023-07-30 10:35 次阅读

网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上,OSI 七层协议为国际协议。

由于HPC/AI对于网络高吞吐、低时延的要求,在数据中心中 TCP/IP 逐步过渡到RDMA。RDMA中 包 含 不同 的 分 支 , 其中,Infiniband 专为 RDMA 设计,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。而 RoCE 和 iWARP 都是基于以太网的 RDMA技术。

Q:什么是协议?

网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上,OSI七层协议为国际协议。20世纪80年代,为了规范化计算机之间的通信方式,从而满足开放式网络的需求,OSI(Open System Interconnection)协议被提出,其采用了一种七层网络。

物理层:解决了硬件之间如何通信,主要功能为定义物理设备标准(如接口类型、传输速率等),从而实现比特流(一种以 0、1 表示的数据流)的传输。

5312be46-2e81-11ee-815d-dac502259ad0.png

数据链路层:主要功能为帧编码和误差纠正控制。具体工作为接受来自物理层的数据,并封装为帧,然后传输到上一层。同样也可以将来自网络层的数据拆为比特流传输给物理层。之所以能实现纠错的功能,是因为每帧除了要传输的数据外,还包括校验信息

网络层:在节点之间创建逻辑电路,通过 IP 寻找地址(在网络中每个节点都有一个IP)。这一层传输的数据以包为单位。

传输层:负责监督数据传输的质量,若发生丢包,则应该重新发送。

会话层:主要功能为管理网络设备的会话连接。

表示层:主要负责数据格式转换、加密等。

应用层:提供应用接口,可以为用户直接提供各种网络服务,完成各种网络工作。

TCP/IP 是包含各种协议的协议簇,这些协议可以大致分为四层,即应用层、传输层、网络层、数据链路层,实际上,TCP/IP协议可以理解做 OSI 七层协议的优化版。

5325fc2c-2e81-11ee-815d-dac502259ad0.png

由于 HPC 对于网络高吞吐、低时延的要求,TCP/IP 逐步过渡到 RDMA。TCP/IP 有几个主要的缺点:

其一,存在数十微秒的时延。由于 TCP/IP 协议栈在传输时,需要多次上下文切换,并依赖 CPU 进行封装,因此时延较长。

其二,CPU 负载严重。TCP/IP 网络需要主机 CPU 多次参与协议栈内存拷贝,CPU负载与网络带宽相关系数过大。

RDMA(远程内存直接访问技术,RemoteDirect Memory Access):能直接通过网络接口访问内存数据,无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。

53714f06-2e81-11ee-815d-dac502259ad0.png

5383fa7a-2e81-11ee-815d-dac502259ad0.png

RDMA 未规定全部协议栈,但是对具体的传输提出了较高的要求:例如不轻易丢、吞吐量大、延时低等等。RDMA 中包含不同的分支,其中, Infiniband 专为 RDMA 设计,从硬件级别保证可靠传输 ,技术先进,但是成本高昂。而 RoCE 和 iWARP 都是基于以太网的RDMA 技术。

53aa2e2a-2e81-11ee-815d-dac502259ad0.png

Q:数据中心架构中,交换机有什么用?

交换机和路由器工作的层次不同。交换机(Switch)工作在数据链路层,基于 MAC(网卡的硬件地址)识别,能完成封装转发数据包功能,允许不同的设备间相互通信。路由器(Router)亦称选径器,工作在网络层,实现相互连接,基于 IP 实现寻址,将不同的子网络相连接。

传统的数据中心往往使用三层架构,即接入层、汇聚层、核心层,而在小型的数据中心中,可以忽略汇聚层的存在。其中,接入层通常直接与服务器相连,常用的接入交换机常为TOR(Top of Rack)交换机。汇聚层是网络接入层和核心层的 “中介(中间层)”。核心交换机为进出数据中心的包提供转发,并为汇聚层提供连接性。

53bad87e-2e81-11ee-815d-dac502259ad0.png

传统的三层网络有较为显著的缺点,并且随着云计算的发展,这些缺点愈发突出:

带宽浪费:每组汇聚交换机管理一个 POD(Point Of Delivery),每个 POD 内都是独立的 VLAN 网络。汇聚交换机和接入交换机之间通常使用 STP(Spanning Tree Protocol,生成树协议)。STP 使得对于一个 VLAN 网络只有一个汇聚层交换机可用,其他的汇聚层是被阻塞的,同时这也导致汇聚层无法水平拓展。

故障域大:由于 STP 的算法,网络拓扑变更时需要重新收敛,容易发生故障。

时延较长:随着数据中心的发展,东西向流量大幅增加,而三层架构间服务器之间的通信需要层层经过交换机,造成了较大的时延,且核心交换机和汇聚交换机的工作压力不断扩大,性能升级也造成成本的上浮。

叶脊架构优势明显,具有扁平化设计、低延迟、具有带宽高等特点。叶脊网络(leaf-spine)使得网络扁平化,其中叶交换机相当于传统的接入层交换机,脊交换机类似核心交换机。

54363f14-2e81-11ee-815d-dac502259ad0.png

叶和脊交换机之间通过 ECMP(Equal Cost Multi Path)动态选择多条路径。当 Leaf 层的接入端口和上行链路都没有瓶颈时,这个架构就实现了无阻塞(Non blocking)。因为Fabric 中的每个 Leaf 都会连接到每个 Spine,所以,如果一个 Spine 出现问题,数据中心的吞吐性能只会有轻微的下降(SlightlyDegrade)。

Q:英伟达交换机=IB 交换机?

不是。英伟达 Spectrum 和 Quantum 平台,同时布局了以太网和 IB 交换机。

英伟达 Spectrum 和 Quantum 平台,同时布局了以太网和 IB 交换机。IB 交换机主要由厂商 mellanox 运营,英伟达于 2020 年成功将其收购。此外,英伟达 Spectrum 平台的交换机主要基于以太网,旗下产品不断迭代,2022 年发布的 Spectrum-4 是 400G 交换机产品。

5451ed7c-2e81-11ee-815d-dac502259ad0.png

Spectrum-X 针对生成式 AI 所设计,优化了传统以太网交换机的限制。NVIDIA Spectrum X 平台的两个关键元素是 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU。

Spectrum-X 的主要优势包括: 将 RoCE 扩展用于 AI 和自适应路由(AR),以实现 NVIDIA 集合通信库(NCCL)的最大性能。NVIDIA Spectrum-X 能够在超大规模系统的负载和规模下实现高达 95% 的有效带宽。

利用性能隔离来确保在多租户和多作业环境中,一个作业不会影响另一个作业。

确保在出现网络组件故障时,网络架构能够继续提供最高性能。

与 BlueField-3 DPU 同步,实现最佳 NCCL 和 AI 性能。

在各种人工智能工作负载下保持一致和稳定的性能,这对实现 SLA 至关重要。

549e6440-2e81-11ee-815d-dac502259ad0.png

在组网方式中,IB 还是以太网是个重要的问题。目前的市场中,以太网占据了绝大部分的市场份额,但是在一些大规模的运算场景中,IB 又一枝独秀。ISC 2021 超级计算大会上,在 TOP10 的系统中 IB 占据了 70%的份额,在 TOP100 中 IB 占据 65%的份额。随着考虑范围越来越大,IB 的市场份额越来越低。

Spectrum 和 Quantum 平台针对不同的应用场景。在英伟达的设想中,AI 应用场景可大致分为 AI 云和 AI 工厂,在 AI 云中可以使用传统以太网交换机和 Spectrum-X 以太网,而在 AI 工厂中则需要使用 NVLink+InfiniBand 的方案。

Q:英伟达 SuperPOD 如何理解?

SuperPOD 是服务器集群,通过将多个计算节点相连,以提供较大的吞吐性能。

以英伟达 DGX A100 SuperPOD 为例,英伟达官方推荐的配置中使用的交换机为 QM9700,能提供 40 个 200G 端口。由于其采用的架构为胖树(不收敛)架构。在第一层中, DGX A100 服务器共有 8 个接口,分别接入 8 个叶交换机,20 台服务器组成一个 SU,因此共需8*SU 台服务器,第二层架构中,由于网络不收敛,且端口速率一致,因此脊交换机提供的上行端口要大于等于叶交换机的下行端口。因此,1 个 SU 对应 8 台叶交换机和 5 台脊交换机,2 个 SU 对应 16 台叶交换机和 10 台脊交换机,依此类推。此外,当 SU 数量增至 6 个以上时,官方推荐加入一层核心层交换机。

54bc0dce-2e81-11ee-815d-dac502259ad0.png

在 DGX A100 SuperPOD 中,计算网络的连接中服务器:交换机~1:1.17(以 7 个 SU 为例);但是在 DGX A100 SuperPOD 中,这一比例为 1:0.38。若考虑到存储器及网络管理的需求,则 DGX A100 SuperPOD 和 DGX H100 SuperPOD 中服务器:交换机分别为 1:1.34 和 1:0.50。

从端口方面看,在 DGX H100 的推荐配置中,每个 SU 由 31 台服务器组成。一方面,DGX H100 只有 4 个用于计算的接口,另一方面,在 DGX H100 SuperPOD 中交换机为 QM9700,提供 64 个 400G 端口。

54dcfc0a-2e81-11ee-815d-dac502259ad0.png

从交换机性能看,DGX H100 SuperPOD 推荐配置中的 QM9700 性能大幅提升。Infiniband 交换机引入了 Sharp 技术。通过聚合管理器在物理拓扑中构造流聚合树(SAT,Streaming Aggregation Trees),然后由树中的多台交换机执行并行运算,可以大幅降低延迟,提高网络性能。QM8700/8790+CX6 仅最多支持 2 个 SAT,但QM9700/9790+CX7 最多支持 64 个。叠加端口数量增多,因此交换机用量下降。

从交换机价格看,QM9700 价格约为 QM8700/8790 的两倍。据 SHI 官网数据,Quantum-2 QM9700 单价 3.8 万美金,Quantum QM8700/8790 分别为 2.3 万/1.7 万美金。

交换机市场现状?

交换机市场短期景气较好,随着 AI 发展,市场需求有望进一步扩大,且呈现向高端迭代趋势。

从格局上看,交换机市场尚为蓝海,思科份额较大,Arista 成长迅速。

市场规模方面:2023Q1 全球以太网交换机收入 100.21 亿美元,同比+31.5%。其中,200G/400G 交换机收入同比增加 41.3%,100G 交换机收入同比+18.0%。

端口出货数量方面:2023Q1 出货 2.29 亿个同比+14.8%。其中,200G/400G、100G 端口分别增加 224.2%、17.0%。

54f4e2c0-2e81-11ee-815d-dac502259ad0.png

竞争格局优于服务器市场,思科一家独大,Arista成长迅速

据theNextPlatform 测算,2023Q1 思科占据 46%的市场份额,约 46.1 亿美元,同比+33.7%。Arista 凭借在数据中心的出色表现,2023Q1 收入11.5 亿美元,同比+61.6%。

盈利能力方面,思科和 Arista 毛利率均接近 60%。较优的格局铸就了产业链厂商良好的盈利能力,思科和Arista 的毛利率虽然由略微下降的趋势,但总体仍保持 60%左右的毛利率。

展望后市,我们认为随着 AI 发展,交换机市场有望持续受益。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 以太网
    +关注

    关注

    40

    文章

    5419

    浏览量

    171598
  • 交换机
    +关注

    关注

    21

    文章

    2637

    浏览量

    99533
  • 路由器
    +关注

    关注

    22

    文章

    3728

    浏览量

    113701
  • RDMA
    +关注

    关注

    0

    文章

    77

    浏览量

    8945
  • TCP通信
    +关注

    关注

    0

    文章

    146

    浏览量

    4221

原文标题:干货:聊聊交换机和AI有什么关系?

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    接入层交换机、汇聚层交换机和核心层交换机的区别

    `1.功能区别核心层交换机的主要功能是用于路由选择及高速转发的,提供优化、可靠的骨干传输结构,因此核心层交换机应用更高的可靠性和吞吐量。汇聚层交换机是多台接入层
    发表于 06-04 11:57

    聊聊科地网管PoE交换机的VLAN如何配置

    VLAN就是我们常说的虚拟局域网。VLAN是一种将局域网设备从逻辑上划分成多个网段,从而实现虚拟工作组的数据交换技术。这一技术主要应用于交换机和路由器中,但主流应用还是在交换机之中。今天,小编和小伙伴们
    的头像 发表于 12-11 16:29 9445次阅读

    核心交换机、汇聚交换机与普通交换机的区别介绍

    核心交换机并不是交换机的一种类型,放在核心层(网络主干部分)的交换机叫核心交换机。汇聚层交换机,是多台接入层
    发表于 03-19 14:50 1.2w次阅读

    POE交换机能和网络监控扯上什么关系

    为了让PoE供电更好的应在在安防网络监控中,PoE交换机得以迅速推广。常用的PoE供电设备有PoE供电器和PoE交换机,其中,PoE交换机使用最为普遍。
    发表于 04-01 14:53 2711次阅读

    交换机的分类及特点

    通常我们在查询交换机的相关资料时会发现大家对于交换机很多种不同的叫法,有人查询核心交换机,有人查询三层交换机,有人查询堆叠
    发表于 08-18 14:47 3192次阅读
    <b class='flag-5'>交换机</b>的分类及特点

    核心交换机、汇聚交换机、接入交换机之间的对比分析

    Cisco定义的分层互联模型包括核心层、汇聚层和接入层,因此,工作在这些层的网络交换机相应的名称,如核心交换机、汇聚交换机和接入交换机
    的头像 发表于 11-02 16:25 2.3w次阅读

    什么是工业交换机?工业交换机和普通交换机什么区别?

    工业交换机,也称为工业以太网交换机,是一种专门设计用于工业环境的网络技术。它为工业网络提供可靠、高速的数据传输,包括速度更快的10G 工业交换机
    的头像 发表于 02-16 15:55 6748次阅读

    PoE交换机可以当普通交换机使用吗

    随着PoE交换机的广泛应用,人们对PoE交换机了一定的了解。然而,很多人认为PoE交换机可以自行发电,这种说法并不正确,通常所讲的PoE交换机
    的头像 发表于 06-27 10:20 6459次阅读

    全国产交换机、军用交换机与普通交换机到底啥区别?

    全国产交换机?军用交换机?普通交换机?傻傻分不清楚?他们到底什么区别呢? 好嘞,今天小编又为大家来解密了 。   图为:军用交换机(左)普
    的头像 发表于 07-07 11:08 1922次阅读
    全国产<b class='flag-5'>交换机</b>、军用<b class='flag-5'>交换机</b>与普通<b class='flag-5'>交换机</b>到底<b class='flag-5'>有</b>啥区别?

    非网管型交换机和网管交换机什么区别

    在当今的交换机中,交换机主要可分为非网管交换机 和 网管交换机。那么非网管交换机和网管交换机
    的头像 发表于 07-10 17:08 2704次阅读
    非网管型<b class='flag-5'>交换机</b>和网管<b class='flag-5'>交换机</b><b class='flag-5'>有</b>什么区别

    什么是核心交换机?与普通交换机何区别?

    什么是核心交换机?与普通交换机何区别? 核心交换机是一个网络中的重要组成部分,用于处理大量数据流量,连接多个子网和LAN(局域网),并确保顺畅的数据传输和通信。它通常位于网络的核心位
    的头像 发表于 12-07 10:46 2646次阅读

    核心交换机和普通交换机的区别?

    核心交换机和普通交换机的区别? 核心交换机(Core Switch)是网络中的重要组成部分,与普通交换机(Regular Switch)
    的头像 发表于 12-07 14:39 1810次阅读

    万兆铜缆交换机与万兆光纤交换机什么区别?该如何选择?

    万兆铜缆交换机与万兆光纤交换机什么区别?该如何选择? 万兆铜缆交换机和万兆光纤交换机是网络通信领域中常见的两种设备,它们在性能、适用场景、
    的头像 发表于 12-27 15:02 859次阅读

    交换机cpu和交换芯片的关系及区别

    交换机CPU和交换芯片在交换机中各自扮演着重要的角色,并且它们之间存在一定的关系与区别。
    的头像 发表于 03-18 14:06 1801次阅读

    交换机cpu和交换芯片的关系

    交换机CPU和交换芯片在网络设备中共同工作,它们之间的关系可以类比为大脑与肌肉的关系。CPU负责决策和控制,而交换芯片负责执行这些决策的物理
    的头像 发表于 03-22 16:34 1155次阅读