0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

华为数据通信 来源:未知 2023-08-31 12:45 次阅读

wKgaomTwG_qATWR-AABYb2B4C6Q886.png

近年来,数据中心网络技术一直在不断发展,以满足日益增长的数据处理需求。从最初的传统结构,到软件定义网络(SDN),再到云原生网络(CN-NFV),数据中心网络技术已经走过了一个漫长的发展历程。AI时代,高性能计算需求正呈现爆发性增长态势,数据中心网络面临更为复杂的挑战,技术将会有哪些新的变化?是否有合适的解决之道?

wKgaomTwG_uAcCX4AAAAjgjvZ2U503.png

wKgaomTwG_uAZjFuABAUaoSDmqk775.png

华为数据通信产品线数据中心网络领域副总裁 张白

2023年8月23日-25日,全国高性能计算学术年会(CCF HPC China 2023)在青岛举办,CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一,有着“中国超算风向标”的称号。本次大会上,华为数据通信产品线数据中心网络领域副总裁张白分享随着AI时代的到来,高性能计算对网络新的诉求,以及如何依靠星河AI网络解决方案去解决智能时代网络面临的新的挑战。

高性能计算需要什么样的互联网络?

当前,新一轮科技革命和产业变革加速演进,高性能计算正带领人类从“信息时代”走向“算力时代”。据中国电子信息产业发展研究院发布的《2022中国数字经济发展研究报告》显示,目前中国算力规模约占全球的27%,排名第二。我国算力进入高速发展阶段,到2025年总算力规模将达到300EFlops,同比2020年增长120%。

数据的爆炸性增长需要算力去解决,一方面需要更高效的算力结构,另一方面需要好的算力网络。高性能计算主要关注如何利用大规模计算的资源来解决科学、工程和商业问题。HPC应用程序通常需要使用并行计算,亿级、10亿级的超算,它的并行计算带给网络非常大的挑战。比如,并行通信、数据同步、大规模稳定运行等。同时,随着AI人工智能快速发展,HPC和AI结合的研究,HPC和AI应用程序通常需要处理大量的数据,并且在计算节点之间进行数据传输和存储,对网络的吞吐及负载均衡也提出了新的挑战。

以当前火爆的大模型来说,其对数据中心网络要求更为苛刻,可以说,大规模算力环境下的网络问题已成为当今数据中心所面临的“紧箍咒”之一。

官网显示,ChatGPT-4输入参数已经达到万亿,2.5年增长了570倍,1.5万张A100卡来支撑训练,大量服务器通过高速网络组成算力集群,共同完成训练任务。但是大规模不等于大带宽,AI大模型的训练场景中会存在负载不均衡的情况,而且设备网络规模越大,传统负载方式冲突会越严重。类似于要想提高车辆运行速度,在拓宽道路的基础上,还需要解决堵车的难题。大规模的网络不仅让业务调优复杂,后期运维也是雪上加霜,无法采用传统手段运维,据统计50%的迭代过程会被迫中断,定位时长平均1天以上。由此可见,AI训练对于网络的诉求可以用三个词来归纳:大规模,高吞吐,高可靠。

如何释放高性能计算100%算力?

加大高性能计算供给,必须增加算力网络可靠性。自2020年至今,大模型引领AI进入新的发展阶段,但大模型训练是个复杂的系统工程,网络基础设施正是长稳训练的关键之一。对于用户来说,其需要投入大量的资金和人才战略来施行其智能化战略,要怎样才能进行数据中心的创新,建立其符合未来需求的数据中心网络呢?

针对当前业界火爆的AI大模型,华为在2023CCF全国高性能计算学术年会(CCF HPC China 2023)上带来星河AI网络解决方案,提供“运得多、运得快,运得稳”的高运力数据中心网络,为客户提供大规模、高吞吐、高可靠的网络建设。

AI场景下对网络的第一要求是大规模,适配万卡集群是网络最基本的要求。华为采用业界最高密200/400GE交换机,匹配大模型训练基本硬件算力诉求,支持超大带宽组网,支持万亿参数量,规模可以达到IB的2-4倍。

网络的另一个要求是高吞吐,面对大规模网络采用算网一体化的方式部署,效率可以提升10倍以上。在AI场景中网络时延不是关键指标,而网络吞吐才是业务性能的关键因素,华为独创AI智能加速器,提高网络吞吐,训练效率提升20%。

高可靠同样是客户对网络的重要要求,华为采用智能化运维的方式来保证训练实时可视分钟级识别慢主机,保证训练的过程不中断。通过采用网络的控制器,包括网络以及计算强强联手,实现“算网一体的融合”,最终实现算力网络“运得多,运得快,运得稳”的目标,从而实现算力100%释放。

进入AI时代,数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理进行转变,计算、存储、网络等这些IT基础设施的核心组成部分,正在融入更多的AI元素。企业如果想要打造未来型数据中心,就必须寻找优秀的技术合作伙伴,致力于提供一套更好的网络基础设施。华为星河AI网络解决方案通过构建支持AI业务的网络,实现从大型模型训练到推理的全过程。目前,华为星河AI网络解决方案已在成全球100+企业部署商用。

如何打造面向未来的AI 网络?

到2030年,全球联接数预计将达到2000亿,数据中心流量10年增长100倍,IPv6地址渗透率将达到90%,AI算力将增长500倍。当前及未来的数据中心将如何应对这些趋势和发展要求?这就需要构建一个立体超宽、满足确定性时延的智能原生AI网络。在华为看来,AI网络的所有技术手段,都需要以业务为本,核心指标就是减少模型的训练时间。

首先,大模型需要规模算力,需要非常大的GPU集群。而把大规模的GPU集群连起来,需要大规模的网络。对于数据中心网络而言,大规模网络本身不是问题,更重要的是要考量建网的成本。华为主张采用大容量的交换设备组网降低网络的层次,由原来的三层合适组网变成两层宽河组网,从而来降低组网的成本。

其次,大规模的集群只是把AI物理服务器物理上连接在一起,要发挥效果还需要释放集群算力。网络在提高集群的加速比上需要发挥更加关键的作用。

最后,AI训练的本质是并行计算,有典型的木桶效应,水桶的盛水量是由几块木板中最短的一块决定的。一个环节出问题,会拉慢整个系统甚至让整个系统瘫痪。网络需要尽可能多的保障服务器之间的连通性,对网络的高可靠需求更高。未来网络要提高集群的整体可用性,做到在99%的情况下都不会因为网络导致训练中断。

在过去20年,网络技术获得了长足发展——2000年开始的ALL IP技术推动了互联网的大规模应用,2010年开始的All Cloud技术驱动了企业IT基础设施的大规模云化。而今天,AI浪潮正扑面而来,持续演进的AI对网络的需求将会处于指数级增长的态势,网络也需要全面拥抱人工智能时代。在这个过程中,华为将继续携手伙伴开放合作与持续创新,在算力领域的发展和应用中作出更大的贡献。

wKgaomTwG_yANRmPAAEQIydIJUA826.png

wKgaomTwG_yANHPHAABH79rerUY833.gif 点击“阅读原文”,了解更多华为数据通信资讯!


原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    215

    文章

    34236

    浏览量

    250905

原文标题:转载 | 高性能计算与AI网络大融合,如何重塑网络智能时代?

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    InfiniBand网络计算的关键技术和应用

    InfiniBand在高性能计算(HPC)和人工智能AI)应用中发挥着关键作用,体现在它提供了高速、低延迟的网络通信能力,以支持大规模数据
    的头像 发表于 10-23 11:33 201次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    人工智能在科学研究中的核心技术,包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石,使得AI能够处理和分析复杂的数据集,从而发现隐藏在数据中的模式和规
    发表于 10-14 09:16

    AI云服务器:开启智能计算时代

    ,旨在为人工智能应用提供坚实的支持。 特点 高性能:配备先进的处理器,如多核CPU和高性能GPU,能够快速处理大量复杂的计算任务,满足深度学习和机器学习模型训练及推理的需求。 可扩展性
    的头像 发表于 08-09 16:08 645次阅读

    燧原科技与锐捷网络携手共筑AI数据中心高性能网络新纪元

    近日,燧原科技与知名网络解决方案提供商锐捷网络正式签署战略合作协议,双方宣布将共同研发面向未来人工智能数据中心的高性能网络互联解决方案。此次
    的头像 发表于 07-29 11:27 483次阅读

    芯品# 高性能计算芯片

    (LSE:AWE)是全球技术基础设施高速连接和计算芯片的全球领导者,与Arm合作开发基于Arm ® Neoverse™计算子系统(CSS)的高级计算芯片,用于人工智能/机器学习(
    的头像 发表于 06-27 10:28 6899次阅读

    华为发布星河AI制造网络,构筑智能制造新基座

    近日,华为AI+制造行业峰会智能联接论坛在深圳举办,华为携手众多客户、伙伴共同探讨了在AI时代背景下制造网络的新趋势和前沿解决方案。
    的头像 发表于 05-19 11:08 516次阅读

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI数据中心
    的头像 发表于 05-15 09:15 572次阅读
    HNS 2024:星河<b class='flag-5'>AI</b>数据中心<b class='flag-5'>网络</b>,赋<b class='flag-5'>AI</b><b class='flag-5'>时代</b>新动能

    NVIDIA InfiniBand和UFM平台赋能高性能AI计算

    在数据驱动的时代AI网络解决方案需要在保障数据安全的前提下,实现对庞大数据流的快速处理和对复杂AI模型的高效训练与推理。
    的头像 发表于 03-27 13:49 819次阅读

    性能领先|忆联×新华三,打造超融合架构下的高性能存储方案

    为助力企业用户构建超融合架构的现代化数据中心,满足业务发展需求,忆联联合新华三集团在超融合架构下打造高性能存储方案,以此提高数据中心的管理效率和资源利用率。一、背景介绍超融合架构是通过
    的头像 发表于 12-27 18:21 580次阅读
    <b class='flag-5'>性能</b>领先|忆联×新华三,打造超<b class='flag-5'>融合</b>架构下的<b class='flag-5'>高性能</b>存储方案

    腾讯云与 IBM 共同打造“高性能计算服务解决方案”

    在今天的“人工智能时代”,与 AI 技术并驾齐驱的是服务于 AI 算法训练及推理的“高性能计算
    的头像 发表于 12-22 18:55 548次阅读
    腾讯云与 IBM 共同打造“<b class='flag-5'>高性能</b><b class='flag-5'>计算</b>服务解决方案”

    Achronix提供由FPGA赋能的智能网卡(SmartNIC)解决方案来打破智能网络性能极限

    随着人工智能/机器学习(AI/ML)和其他复杂的、以数据为中心的工作负载被广泛部署,市场对高性能计算的需求持续飙升,对高性能
    的头像 发表于 12-21 14:52 540次阅读

    Achronix提供由FPGA赋能的智能网卡来打破智能网络性能极限

    随着人工智能/机器学习(AI/ML)和其他复杂的、以数据为中心的工作负载被广泛部署,市场对高性能计算的需求持续飙升,对高性能
    的头像 发表于 12-19 11:10 842次阅读

    人工智能服务器高性能计算需求

    人工智能(AI)服务器是一种专门为了运行人工智能应用和提供大数据处理能力而设计的高性能计算机。它既可以支持本地应用程序和网页,也可以为云和本地服务器提供复杂的
    的头像 发表于 12-08 09:44 471次阅读

    态路小课堂丨InfiniBand与以太网:AI时代网络差异

    今年以来,InfiniBand因其在AI领域中的应用而备受瞩目。 InfiniBand介绍 InfiniBand (也称为“无限带宽”,缩写为IB)是一种高速网络技术,具有高性能、低延迟、可靠和灵活的数据传输功能,适用于要求高速
    的头像 发表于 11-29 18:16 831次阅读
    态路小课堂丨InfiniBand与以太网:<b class='flag-5'>AI</b><b class='flag-5'>时代</b>的<b class='flag-5'>网络</b>差异

    华山论剑:AI大模型时代高性能网络如何演进?

    灵骏集群内的流量则完全不同,因为训练任务是周期性迭代的,导致网络上的流量也是周期性的突发,并且每次突发都可以打满网络带宽。这就给网络设计带来了很大的挑战,因为网工们都知道“少量大象流”是ECMP的噩梦,非常容易导致Hash不均的
    的头像 发表于 11-06 16:43 2336次阅读