AI网络未来十年以太网交换机市场的增长动力吗？-电子发烧友网

根据 IDC 的数据，2022 年，AI 网络市场已达到 20亿美元，其中 InfiniBand 贡献了 75% 的收入。2023 年AI 基础设施建设投资将达到 1540亿美元，到 2026 年将增长到 3000亿美元。展望 2027 年，AI 网络的收入将飙升至超过 100亿美元，其中以太网将超过 60亿美元。以太网和 InfiniBand 都将在此期间强劲增长。与此同时，AI 工作负载的带宽每年增长将超过 100%，远高于数据中心每年 30-40% 的带宽增长。此外，AI 将成为未来十年以太网交换机市场最重要的增长动力。

随着AI 的持续火热，其工作负载也呈指数级增长，网络基础设施正面临极限。AI 基础设施建设需要支持运行在单个计算和存储节点上的大型复杂工作负载，这些节点作为逻辑集群一起工作。AI 网络通过大容量互联结构连接这些大型工作负载。

AI 工作负载

AI 工作负载与传统数据中心网络有着根本的不同，虽然超大规模数据中心和 AI /HPC集群之间有很多相似之处，但超大规模数据中心使用的解决方案不足以解决AI /HPC工作负载带来的额外复杂性。AI网络有着以下特征：

并行计算：AI 工作负载是运行相同应用程序、相同计算任务的多台机器之间统一的基础设施；

规模：此类任务的规模可以达到数千个计算引擎（例如GPU、CPU、FPGA 等）；

作业类型：不同的任务在大小、运行时间、数据集大小和数量、生成答案的类型、用于编码应用程序的不同语言和运行它的硬件类型等方面有所不同，都会导致为运行AI 工作负载而构建的网络流量模式不断变化；

延迟：延迟是影响作业完成时间（JCT）的重要因素之一。然而，由于此类并行工作负载在多台机器上运行，因此延迟取决于响应最慢的机器；

无损：迟到的响应会延迟整个应用程序。在传统数据中心中，消息丢失将导致重新传输，而在AI 工作负载中，消息丢失意味着整个计算要么错误，要么卡住。正是由于这个原因，AI 网络需要无损行为；

带宽：AI 应用的数据集很大。高带宽流量需要在服务器之间运行，以便应用程序能够获取数据。在现代部署中，AI /HPC计算功能的每个计算引擎的接口速度都达到 400Gbps。

AI 集群网络

AI 集群通常有两个不同的网络。第一种网络，也是比较传统的，是所有服务器的外部或面向外部的“前端”网络，当它们面向公共互联网时，需要基于以太网和IP协议。AI 的主要区别在于需要将大量数据输入集群，因此管道比传统的网络服务器大得多。未来的 AI 设计将驱动每台服务器多个 112G SERDES 通道，表现为 100 G 或 400 G 端口。

第二种是“后端”网络，这是一个将AI 集群资源连接在一起的独特网络。对于AI 集群来说，跨计算资源连接到其共享存储和内存，并快速且没有延迟偏差地执行这些任务，对于最大化集群性能至关重要。未来这种新网络的AI 设计将是每个计算服务器有多个 400 G、800 G 或更高端口。

AI 工作负载严重依赖于后端网络。由于一个工作负载在多台服务器上运行，因此需要高带宽、无抖动和无数据包丢失，以确保最高的 GPI 利用率。网络性能的任何下降都会影响JCT。这就需要一个可预测的、无损的后端网络解决方案，这对任何网络技术来说都是一个重大挑战。

随着AI 工作负载的快速增长，AI 集群结构中使用的网络解决方案需要不断发展，以最大限度地利用昂贵的AI 资源。

AI网络行业解决方案

如何设计高效的AI 集群组网方案，满足低时延、高吞吐的机间通信，从而降低多机多卡间数据同步的通信耗时，提升 GPU 有效计算时间占比（GPU 计算时间/整体训练时间），对于 AI 网络互联至关重要。下文展示了部分AI高性能网络行业解决方案。

腾讯星脉网络

6月，腾讯云首次完整披露自研星脉高性能计算网络。据称，星脉网络具备3.2T通信带宽，能提升40%的GPU利用率，节省30%~60%的模型训练成本，为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC，可支持10万卡的超大计算规模。

在硬件方面，星脉网络基于腾讯的网络研发平台，采用全自研设备构建互联底座，实现自动化部署和配置。在软件方面，腾讯云自研的TiTa网络协议，采用先进的拥塞控制和管理技术，能够实时监测并调整网络拥塞，满足大量服务器节点之间的通信需求，确保数据交换流畅、延时低，使集群通信效率达90%以上。

华为星河AI网络

华为新一代星河AI网络解决方案，旨在提供一种高效、可靠、安全的数据中心网络解决方案，以支持大规模数据中心的数字化转型。华为星河AI网络解决方案整体技术栈，围绕超高吞吐、长稳可靠和弹性高并发等核心目标来构建关键技术：

超高吞吐：基于华为独创的全局负载均衡NSLB算法、自动化开局和全栈可视运维技术实现算网实时协同调度，将网络有效吞吐从业界的50%提升到98%，大模型训练效率提升20%。

长稳可靠：利用全栈可视运维黑科技，实现大模型训练网络路径、流负载实时可视；结合Packet Event数据面异常感知技术和DPFR故障无感自愈技术，实现亚毫秒级故障快速收敛。

弹性高并发：基于华为独创的多路径智能调度、流感知均衡调优和自适应抗丢包技术，实现 “T级数据小时达”，转发运力提升8倍。

阿里可预期高性能网络

阿里云基础设施事业部推出的可预期网络（Predictable Network）可满足计算任务中的过程数据高效交换需求，是大规模RDMA网络部署实践中不断总结并创新而来的网络技术体系。相比于传统网络的“尽力而为”，可预期网络的概念代表了应用场景对网络服务质量更高的要求，让吞吐率、时延等关键性能指标“可预期”，具备质量保证（QoS）。

阿里云高性能可预期数据中心网络的核心技术包括：

自研High Performance Network（HPN）高性能网络架构；

基于自研交换机和智能网卡的端网融合核心技术体系；

统一的高性能网络服务平台，Network Unified Service Architecture (NUSA)。

阿里云可预期网络技术体系在架构设计、传输协议、通信库、网络资源调度、网络容器、服务化等维度展开，正在通过智能计算灵骏，为人工智能、大数据分析、高性能计算等高密度计算场景提供服务。

百度AIPod高性能网络

百度认为 AI 高性能网络有三大目标：超大规模、超高带宽以及超长稳定，基于这样的目标，百度有针对性地设计了 AI 大底座里面的 AI 高性能网络—— AIPod。

百度AI 高性能网络 AIPod有约 400 台交换机、3000 张网卡、10000 根线缆和 20000 个光模块。其中仅线缆的总长度就相当于北京到青岛的距离。AIPod 网络采用 3 层无收敛的 CLOS 组网结构。

AIPod 高性能网络也是百度智能云 AI 大底座中百度百舸的底层关键技术，决定了大模型训练的能力和效率。大规模、高带宽、长稳定的 AIPod 高性能网络能够帮助用户更高效率、更低成本的训练自己的大模型。

除此之外，像三大运营商、思科、英特尔、博通、谷歌、新华三、中兴、锐捷、青云等公司都有针对AI的不同应用场景推出不同的行业解决方案，感兴趣的朋友可以阅读《盘点：AI 大模型背后不同玩家的网络支撑》。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

以太网

以太网

+关注

关注
40

文章
5467

浏览量
172895
gpu

gpu

+关注

关注
28

文章
4795

浏览量
129502
交换机

交换机

+关注

关注
21

文章
2661

浏览量
100251
HPC

HPC

+关注

关注
0

文章
327

浏览量
23882
SerDes

SerDes

+关注

关注
6

文章
201

浏览量
35105

原文标题：AI网络，未来十年以太网交换机市场的增长动力

文章出处：【微信号：SDNLAB，微信公众号：SDNLAB】欢迎添加关注！文章转载请注明出处。

交换机与以太网怎么连接

在现代网络通信中，交换机和以太网作为构建局域网（LAN）的核心组件，其连接方式和配置对于网络的性能和稳定性至关重要。本文旨在深入探讨

发表于 02-02 16:44 •152次阅读

以太网交换机高稳定性时钟系统应用方案

随着网络技术的不断发展，我们的生活也发生着巨大的变化，这离不开以太网起到的重大作用，全球大部分地区的以太网交换机市场都出现了

发表于 10-17 14:47 •0次下载

以太网交换模式有哪几种

以太网交换模式是指以太网交换机在数据传输过程中所采用的处理和转发数据帧的方式。以太网交换机作为局

发表于 10-08 10:12 •1160次阅读

以太网交换机CTA进网许可认证有哪些申请条件？

条件呢?以太网关交换机申请CTA认证的目的是为了确保申请设备符合中国的电信技术标准和规范，保障网络安全和用户权益。接下来英利检测分享几点以太网交换机

发表于 09-18 17:53 •549次阅读

虹科应用增强型以太网交换机：如何实现同IP控制的高效网络管理？

导读：车载以太网交换机的配置和管理是确保数据流高效、安全传输的关键。虹科增强型以太网交换机（EES）通过其先进的功能，为用户提供了一种灵活且高效的解决方案。随着车载

发表于 08-16 10:43 •436次阅读

工业交换机与工业以太网的区别

　　在工业通信领域中，工业交换机和工业以太网是两个不可或缺的部分，它们各自在工业自动化、控制系统以及数据传输等方面扮演着重要角色。然而，尽管这两者紧密相关，但它们在功能、特性以及应用场景上存在一些显著的区别。本文将详细探讨工业交换机

发表于 06-06 11:53 •853次阅读

如何使用以太网交换机最大限度地减少网络延迟

有不同的技术可用于减少以太网交换机的网络延迟。它们如下：扩展网络容量：减少延迟和冲突的最简单、最有效的技术之一是使用以太网

发表于 05-28 10:28 •716次阅读

什么是以太网交换机中的网络延迟

网络延迟一词表示网络上数据通信的延迟。以太网交换机中的网络延迟或以太网

发表于 05-28 10:13 •621次阅读

如何使用托管型以太网交换机为 IIoT 实现安全的时间敏感网络

网络也需要一种高效灵活的方式为设备供电，而且需要一种端口密度高的连接解决方案，以便在最小的空间内支持大量设备。下一代托管型以太网交换机可以满足这些需求以及其他更多需求。托管型以太网

发表于 05-05 16:32 •822次阅读

工业以太网交换机节能的必要性与实施策略

能源成本不断攀升，全球环保意识不断增强，工业以太网交换机的节能问题也愈发受到企业的关注。节能的工业以太网交换机不仅能为企业节省大量运营成本，还能降低碳排放，助力企业实现绿色可持续发展。

发表于 04-30 16:44 •637次阅读

车载以太网交换机的功能及测试方法

车载以太网的通信架构和关键技术参考传统以太网，采用点对点的通信方式，网络中节点超过两个时需要使用交换机转发数据。

发表于 04-11 09:57 •529次阅读

工业以太网交换机 vs. 常规以太网交换机：全面详细比较

概述 以太网交换机是现代计算机网络中的关键设备，用于连接各种设备，实现数据传输和通信。工业以太网交换机和常规

发表于 04-08 10:10 •2699次阅读

2023年全球以太网交换机市场最新排名出炉！

据IDC报告显示，2023 年全球以太网交换机收入同比增长 20.1%，达到 442 亿美元（约3175亿人民币）。

发表于 03-11 16:14 •2918次阅读

以太网中用交换机为什么能全双工传输呢？

以太网中用交换机为什么能全双工传输呢？ 以太网是一种局域网传输协议，常用于连接计算机和其他网络设备。以太

发表于 02-20 14:41 •2160次阅读

以太网交换机有何特点？用它怎样组成虚拟局域网

和构建虚拟局域网的方法。同时，我将探讨虚拟局域网（VLAN）在现代网络中的应用和优势。一、以太网交换机起源在早期的

发表于 02-20 14:26 •5290次阅读