0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于无损数据中心的AI训练网络均衡技术实践

华为数据通信 来源:华为数据通信 作者:华为数据通信 2022-08-03 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2022年7月,在山东济南举行的2022中国算力大会上,紫金山实验室研究员高新平作了“基于无损数据中心AI训练网络均衡技术实践”的主题演讲。

紫金山实验室是江苏省和南京市共同推进建设的重大科技创新平台。紫金山实验室面向网络通信与安全领域国家重大战略需求,以引领全球信息科技发展方向、解决行业重大科技问题为使命,通过聚集全球高端人才,开展前瞻性、基础性研究,力图突破关键核心技术,开展重大示范应用,促进成果在国家经济建设中落地。紫金山实验室力图成为国家科技创新的重要力量,建成具有世界一流水平的战略科技创新基地。

紫金山实验室与华为依托紫金山实验室无损数据中心展开面向AI训练场景的网络均衡技术的联合创新,解决AI集群中网络负载不均而导致的AI训练任务性能下降的问题。

高新平研究员指出AI训练使用的集合通信算法,当前主流的有Ring算法、Tree算法和Halving Doubling算法等,在运行时通信流量都呈现出了共同的特征:周期性、流数量少、长连接,并行任务间有强实时同步性要求,通信效率取决于最慢的节点。同时,AI训练时,各节点之间传输的数据量大。以上这些流量特性使计算集群网络容易出现负载不均导致AI训练任务性能下降的问题。

现有网络均衡的主流技术大体分为三种,逐流ECMP均衡、基于子流flowlet均衡和逐包的负载分担均衡。逐流ECMP均衡技术,是当前最为常用的负载均衡算法,适用于流链接较多场景,它优势在于无乱序,劣势在于流数量较少时,例如AI训练场景下,存在HASH冲突问题,网络均衡效果不佳。基于子流flowlet均衡技术,它依赖于子流之间的时间间隔GAP值的正确配置来实现均衡,但全局路径级时延信息不可知、无法配置,且存在接收端侧乱序的问题。逐包的负载分担均衡技术,理论均衡度最好,但实际在接收端侧存在大量报文乱序问题,现实中几乎无使用案例。

发表“基于无损数据中心的AI训练网络均衡技术实践”主题演讲

在紫金山实验室无损数据中心AI训练集群中验证了华为创新的网络均衡技术NSLB(Network Service Load Balance)。基于华为交换芯片高精度telemetry能力,采集流量矩阵作为路由算法输入,用以控制AI流量的转发路径,避免负载不均,提升AI训练效率。

Ring算法场景,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率34%、比ECMP提升35%,AI训练集性能最高提升113.41%;

Ring算法场景,同时运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率29%、比ECMP提升15.6%,AI训练集性能最高提升57.29%;

Tree算法场景下,运行单个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率13.8%、比ECMP提升1%,AI训练集性能最高提升6.50%;

Tree算法场景下,运行两个计算任务下,使用NSLB技术对比典型ECMP负载分担技术,网络实现100%均衡、平均链路利用率14%、比ECMP提升10.5%,AI训练集性能最高提升15.81%。

未来,紫金山实验将与华为在无损数据中心网络领域就网络新拓扑、DCN高性能互联等方向展开持续的联合创新,推动无损数据中心网络在低时延、高吞吐等方向进一步的发展,为高算力提供强有力的底座。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    18

    文章

    5780

    浏览量

    75212
  • AI
    AI
    +关注

    关注

    91

    文章

    41295

    浏览量

    302669
  • 网络通信
    +关注

    关注

    4

    文章

    847

    浏览量

    32665

原文标题:2022中国算力大会 | 基于无损数据中心的AI训练网络均衡技术实践

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为携手合作伙伴共谱数据中心网络发展新篇章

    华为中国合作伙伴大会2026期间,以“星河AI Fabric 2.0,算力满载,业务永续”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚行业资深专家、客户以及伙伴,共同探讨AI时代
    的头像 发表于 03-23 16:32 501次阅读

    微软最新AI技术数据中心即将启用

    微软在美国威斯康星州 Mount Pleasant 建设的最新AI技术数据中心即将投入使用,预计 2026 年初正式启用。第二座同规模中心也在规划中,总投资将超过 70 亿美元。
    的头像 发表于 11-05 16:37 1186次阅读

    Credo携1.6T Bluebird DSP破解AI数据中心算力瓶颈

    高速连接17年的企业再掷重磅——发布 新一代1.6T Bluebird DSP ,为AI数据中心的“算力军备竞赛”注入关键动力。 当下,AI大模型训练集群的GPU数量已突破百万级,单节
    的头像 发表于 10-17 14:49 971次阅读
    Credo携1.6T Bluebird DSP破解<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b>算力瓶颈

    CPO技术加速未来数据中心网络发展

    生成式 AI 的快速普及正在推动数据中心网络需求的指数级增长。光电一体化封装(CPO)技术以其高带宽密度、低功耗和可靠性优势,成为满足 AI
    的头像 发表于 09-23 14:24 2270次阅读

    华为星河AI高算效数据中心网络亮相ODCC 2025

    数据通信产品线数据中心网络领域总裁王武伟受邀在主论坛发表题为“面向AI时代的智能算网,实现算力满载业务永续”的演讲。
    的头像 发表于 09-16 14:54 2808次阅读
    华为星河<b class='flag-5'>AI</b>高算效<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>亮相ODCC 2025

    睿海光电:400G光模块技术创新与AI数据中心变革

    睿海光电:400G光模块技术创新与AI数据中心变革 一、400G光模块:新一代数据中心的核心引擎 在AI大模型
    的头像 发表于 08-18 13:52 1352次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    华为面向拉美地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区发布全新升级的星河
    的头像 发表于 08-11 10:42 2592次阅读

    PCIe协议分析仪在数据中心中有何作用?

    数据中心的整体可靠性。以下是其核心作用及具体应用场景的详细分析:一、性能优化:突破带宽瓶颈,提升计算效率 链路带宽利用率分析 场景:在AI训练集群中,GPU通过PCIe与CPU交换数据
    发表于 07-29 15:02

    智能路径调度:AI驱动负载均衡的异常路径治理实践

    AI驱动的数据中心网络环境中,传统的“尽力而为”和“无差别均分”负载均衡策略已力不从心。基于路径综合质量的动态WCMP机制,通过实时感知路径状态、果断剔除异常、智能调度“健康”资源,
    的头像 发表于 07-03 16:26 1301次阅读
    智能路径调度:<b class='flag-5'>AI</b>驱动负载<b class='flag-5'>均衡</b>的异常路径治理<b class='flag-5'>实践</b>

    中型数据中心中的差分晶体振荡器应用与匹配方案

    同步模块等。 2. 高校/科研机构智能计算中心 应用背景: 服务于AI训练、大数据建模与图像处理的科研计算平台,要求高速网络与大容量
    发表于 07-01 16:33

    数据中心和通信网络有什么区别

    数据中心和通信网络在功能定位、技术架构、应用场景等方面存在显著区别,以下是详细对比: 一、功能定位 数据中心 核心功能:作为存储、处理和管理海量数据
    的头像 发表于 06-12 09:57 1167次阅读
    <b class='flag-5'>数据中心</b>和通信<b class='flag-5'>网络</b>有什么区别

    华为面向亚太地区发布全新星河AI数据中心网络方案

    在华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向亚太地区发布全新升级的星河
    的头像 发表于 06-11 11:11 1599次阅读

    华为面向中东中亚地区发布全新星河AI数据中心网络

    近日,在华为数据通信创新峰会2025中东中亚站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向中东中亚地区发布全
    的头像 发表于 05-21 15:49 1067次阅读