转载 | 高性能计算与AI网络大融合，如何重塑网络智能时代？-电子发烧友网

近年来，数据中心网络技术一直在不断发展，以满足日益增长的数据处理需求。从最初的传统结构，到软件定义网络（SDN），再到云原生网络（CN-NFV），数据中心网络技术已经走过了一个漫长的发展历程。AI时代，高性能计算需求正呈现爆发性增长态势，数据中心网络面临更为复杂的挑战，技术将会有哪些新的变化？是否有合适的解决之道？

华为数据通信产品线数据中心网络领域副总裁张白

2023年8月23日-25日，全国高性能计算学术年会(CCF HPC China 2023)在青岛举办，CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一，有着“中国超算风向标”的称号。本次大会上，华为数据通信产品线数据中心网络领域副总裁张白分享随着AI时代的到来，高性能计算对网络新的诉求，以及如何依靠星河AI网络解决方案去解决智能时代网络面临的新的挑战。

高性能计算需要什么样的互联网络？

当前，新一轮科技革命和产业变革加速演进，高性能计算正带领人类从“信息时代”走向“算力时代”。据中国电子信息产业发展研究院发布的《2022中国数字经济发展研究报告》显示，目前中国算力规模约占全球的27%，排名第二。我国算力进入高速发展阶段，到2025年总算力规模将达到300EFlops，同比2020年增长120%。

数据的爆炸性增长需要算力去解决，一方面需要更高效的算力结构，另一方面需要好的算力网络。高性能计算主要关注如何利用大规模计算的资源来解决科学、工程和商业问题。HPC应用程序通常需要使用并行计算，亿级、10亿级的超算，它的并行计算带给网络非常大的挑战。比如，并行通信、数据同步、大规模稳定运行等。同时，随着AI人工智能快速发展，HPC和AI结合的研究，HPC和AI应用程序通常需要处理大量的数据，并且在计算节点之间进行数据传输和存储，对网络的吞吐及负载均衡也提出了新的挑战。

以当前火爆的大模型来说，其对数据中心网络要求更为苛刻，可以说，大规模算力环境下的网络问题已成为当今数据中心所面临的“紧箍咒”之一。

官网显示，ChatGPT-4输入参数已经达到万亿，2.5年增长了570倍，1.5万张A100卡来支撑训练，大量服务器通过高速网络组成算力集群，共同完成训练任务。但是大规模不等于大带宽，AI大模型的训练场景中会存在负载不均衡的情况，而且设备网络规模越大，传统负载方式冲突会越严重。类似于要想提高车辆运行速度，在拓宽道路的基础上，还需要解决堵车的难题。大规模的网络不仅让业务调优复杂，后期运维也是雪上加霜，无法采用传统手段运维，据统计50%的迭代过程会被迫中断，定位时长平均1天以上。由此可见，AI训练对于网络的诉求可以用三个词来归纳：大规模，高吞吐，高可靠。

如何释放高性能计算100%算力？

加大高性能计算供给，必须增加算力网络可靠性。自2020年至今，大模型引领AI进入新的发展阶段，但大模型训练是个复杂的系统工程，网络基础设施正是长稳训练的关键之一。对于用户来说，其需要投入大量的资金和人才战略来施行其智能化战略，要怎样才能进行数据中心的创新，建立其符合未来需求的数据中心网络呢?

针对当前业界火爆的AI大模型，华为在2023CCF全国高性能计算学术年会（CCF HPC China 2023）上带来星河AI网络解决方案，提供“运得多、运得快，运得稳”的高运力数据中心网络，为客户提供大规模、高吞吐、高可靠的网络建设。

AI场景下对网络的第一要求是大规模，适配万卡集群是网络最基本的要求。华为采用业界最高密200/400GE交换机，匹配大模型训练基本硬件算力诉求，支持超大带宽组网，支持万亿参数量，规模可以达到IB的2-4倍。

网络的另一个要求是高吞吐，面对大规模网络采用算网一体化的方式部署，效率可以提升10倍以上。在AI场景中网络时延不是关键指标，而网络吞吐才是业务性能的关键因素，华为独创AI智能加速器，提高网络吞吐，训练效率提升20%。

高可靠同样是客户对网络的重要要求，华为采用智能化运维的方式来保证训练实时可视分钟级识别慢主机，保证训练的过程不中断。通过采用网络的控制器，包括网络以及计算强强联手，实现“算网一体的融合”，最终实现算力网络“运得多，运得快，运得稳”的目标，从而实现算力100%释放。

进入AI时代，数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变，计算、存储、网络等这些IT基础设施的核心组成部分，正在融入更多的AI元素。企业如果想要打造未来型数据中心，就必须寻找优秀的技术合作伙伴，致力于提供一套更好的网络基础设施。华为星河AI网络解决方案通过构建支持AI业务的网络，实现从大型模型训练到推理的全过程。目前，华为星河AI网络解决方案已在成全球100+企业部署商用。

如何打造面向未来的AI 网络？

到2030年，全球联接数预计将达到2000亿，数据中心流量10年增长100倍，IPv6地址渗透率将达到90%，AI算力将增长500倍。当前及未来的数据中心将如何应对这些趋势和发展要求?这就需要构建一个立体超宽、满足确定性时延的智能原生AI网络。在华为看来，AI网络的所有技术手段，都需要以业务为本，核心指标就是减少模型的训练时间。

首先，大模型需要规模算力，需要非常大的GPU集群。而把大规模的GPU集群连起来，需要大规模的网络。对于数据中心网络而言，大规模网络本身不是问题，更重要的是要考量建网的成本。华为主张采用大容量的交换设备组网降低网络的层次，由原来的三层合适组网变成两层宽河组网，从而来降低组网的成本。

其次，大规模的集群只是把AI物理服务器物理上连接在一起，要发挥效果还需要释放集群算力。网络在提高集群的加速比上需要发挥更加关键的作用。

最后，AI训练的本质是并行计算，有典型的木桶效应，水桶的盛水量是由几块木板中最短的一块决定的。一个环节出问题，会拉慢整个系统甚至让整个系统瘫痪。网络需要尽可能多的保障服务器之间的连通性，对网络的高可靠需求更高。未来网络要提高集群的整体可用性，做到在99%的情况下都不会因为网络导致训练中断。

在过去20年，网络技术获得了长足发展——2000年开始的ALL IP技术推动了互联网的大规模应用，2010年开始的All Cloud技术驱动了企业IT基础设施的大规模云化。而今天，AI浪潮正扑面而来，持续演进的AI对网络的需求将会处于指数级增长的态势，网络也需要全面拥抱人工智能时代。在这个过程中，华为将继续携手伙伴开放合作与持续创新，在算力领域的发展和应用中作出更大的贡献。

点击“阅读原文”，了解更多华为数据通信资讯！

原文标题：转载 | 高性能计算与AI网络大融合，如何重塑网络智能时代？

文章出处：【微信公众号：华为数据通信】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

华为

华为

+关注

关注
216

文章
34417

浏览量
251524

原文标题：转载 | 高性能计算与AI网络大融合，如何重塑网络智能时代？

文章出处：【微信号：Huawei_Fixed，微信公众号：华为数据通信】欢迎添加关注！文章转载请注明出处。

华为星河AI网络共赢行业智能化

近日，华为年度旗舰活动——HUAWEI CONNECT 2024·PARIS开幕。大会期间，星河AI网络论坛成功举办，200+名全球行业领袖、技术专家和合作伙伴参加，共同探讨智能时代下

发表于 11-18 11:29 •347次阅读

AI高性能计算平台是什么

AI高性能计算平台不仅是AI技术发展的基石，更是推动AI应用落地、加速产业升级的重要工具。以下，是对AI

发表于 11-11 09:56 •185次阅读

InfiniBand网络内计算的关键技术和应用

InfiniBand在高性能计算（HPC）和人工智能（AI）应用中发挥着关键作用，体现在它提供了高速、低延迟的网络通信能力，以支持大规模数据

发表于 10-23 11:33 •329次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

人工智能在科学研究中的核心技术，包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石，使得AI能够处理和分析复杂的数据集，从而发现隐藏在数据中的模式和规

发表于 10-14 09:16

AI云服务器：开启智能计算新时代

，旨在为人工智能应用提供坚实的支持。特点 高性能：配备先进的处理器，如多核CPU和高性能GPU，能够快速处理大量复杂的计算任务，满足深度学习和机器学习模型训练及推理的需求。可扩展性

发表于 08-09 16:08 •857次阅读

燧原科技与锐捷网络携手共筑AI数据中心高性能网络新纪元

近日，燧原科技与知名网络解决方案提供商锐捷网络正式签署战略合作协议，双方宣布将共同研发面向未来人工智能数据中心的高性能网络互联解决方案。此次

发表于 07-29 11:27 •539次阅读

芯品# 高性能计算芯片

（LSE：AWE）是全球技术基础设施高速连接和计算芯片的全球领导者，与Arm合作开发基于Arm ® Neoverse™计算子系统（CSS）的高级计算芯片，用于人工智能/机器学习（

发表于 06-27 10:28 •6978次阅读

HDC2024华为发布鸿蒙原生智能：AI与OS深度融合，开启全新的AI时代

董事长余承东先生表示：全新的Harmony Intelligence鸿蒙原生智能，将开启全新的AI时代！软硬芯云协同鸿蒙原生智能深度融合

发表于 06-24 09:28 •613次阅读

华为发布星河AI制造网络，构筑智能制造新基座

近日，华为AI+制造行业峰会智能联接论坛在深圳举办，华为携手众多客户、伙伴共同探讨了在AI时代背景下制造网络的新趋势和前沿解决方案。

发表于 05-19 11:08 •559次阅读

存内计算WTM2101编译工具链资料

领先的存内计算芯片企业。公司针对AI应用场景，在全球率先商业化量产基于存内计算技术的神经网络芯片。凭借颠覆性的技术创新，知存科技突破传统计算

发表于 05-16 16:33

HNS 2024：星河AI数据中心网络，赋AI时代新动能

华为数据通信创新峰会2024在巴库隆重举办，在“星河AI数据中心网络，赋AI时代新动能”主题论坛中，华为面向中东中亚地区发布星河AI数据中心

发表于 05-15 09:15 •649次阅读

NVIDIA InfiniBand和UFM平台赋能高性能AI计算

在数据驱动的时代，AI网络解决方案需要在保障数据安全的前提下，实现对庞大数据流的快速处理和对复杂AI模型的高效训练与推理。

发表于 03-27 13:49 •1034次阅读

一图看懂星河AI数据中心网络，全面释放AI时代算力

华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络，以网强算，全面释放AI时代算力

发表于 03-22 10:28 •751次阅读

介绍一种高性能计算和数据中心网络架构：InfiniBand（IB）

InfiniBand（IB）是一种高性能计算和数据中心网络架构，其设计目标是通过提供低延迟、高带宽以及可扩展性来满足大规模计算和数据传输的需求。让我们深入了解InfiniBand的基本

发表于 03-13 17:14 •1543次阅读

性能领先|忆联×新华三，打造超融合架构下的高性能存储方案

为助力企业用户构建超融合架构的现代化数据中心，满足业务发展需求，忆联联合新华三集团在超融合架构下打造高性能存储方案，以此提高数据中心的管理效率和资源利用率。一、背景介绍超融合架构是通过

发表于 12-27 18:21 •612次阅读