0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

华为数据通信 来源:未知 2023-08-29 18:15 次阅读

wKgZomTtxlKAaCZ6AABYb2B4C6Q831.png

8月25日,在青岛举行的全国高性能计算学术年会大会(CCF HPC China 2023)上,2023华为高性能计算解决方案分论坛同步举办。来自武汉超算中心的运营负责人陈斌分享了“武汉超算全栈国产HPC解决方案方法与运营”。

wKgZomTtxlKALdjPAAjUcRxh9Hg531.png

武汉超算运营负责人 陈斌 现场分享

数字经济时代,算力就是生产力。

提及武汉和湖北,总离不开“枢纽”二字,湖北地处中国南北连接中心,素有“九省通衢”之称,武汉又是位于长江黄金水道的中心城市。得益于独特的地理区位优势,湖北正努力从区位交通枢纽跃升数字经济枢纽,而其中的关键正是算力。

《湖北数字经济强省三年行动计划(2022-2024年)》提出打造新型基础设施中部枢纽节点的发展目标,建设全国一体化算力网络国家枢纽中部节点成为重要行动。毫无疑问,算力已成为推动数字经济发展的核心力量。

超级计算,该配什么样的超级网络?

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

两年前,武汉超算中心启动建设,作为国内最大的集装箱超算中心,整体规划设计算力为200P,首期算力达到50P。武汉超算中心与紧邻的武汉人工智能计算中心投运形成合力,助力武汉成为国内为数不多的拥有超算和智算双中心城市的同时,也在助力湖北打造成为国家算力网络中部枢纽目标中发挥着重要的推动作用。

值得一说的是,无论是HPC还是AI计算,算力的极致释放离不开高吞吐、低延迟的网络加持,就像一辆汽车从一城快速驶向另一城,除了自身具备高性能的发动机等特性外,还离不开更高效、更高质量的网络进行高速互联。

过去数年,InfiniBand网络在HPC系统中占据了绝对领先份额,原因无他,通过引入RDMA协议,InfiniBand网络大大降低了数据传输时延,成为高性能网络的代表。不过,其也有着明显的弊端,不同于TCP/IP协议栈,Infiniband拥有自己的网络层和传输层协议,所以体系相对封闭,并且运维复杂、价格昂贵。

为了释放极致算力,武汉超算中心在建设实践中则选择了开放的RoCE(RDMA over Converged Ethernet)路线,基于华为超融合以太网络解决方案构建面向HPC和AI计算的智能无损高性能计算网络,不仅满足高性能计算需求,同时提升了投资回报率。

释放极致算力,湖北超算携手华为
构建智能无损高性能计算网络

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

高性能计算实现的前提是计算、存储、网络端到端的高性能,任何一方成为系统性能的短木板,都将导致整体系统性能发挥面临瓶颈。

武汉超算中心之所以选择华为超融合以太解决方案,首要原因是看到了其实现网络高性能的三个核心指标:0丢包、低时延、高吞吐。华为智能无损高性能计算网络实现从“尽力而为”连通型网络向“提供确定性SLA保障”性能型网络演进,将网络高性能提升至新的高度,从而100%释放算力。

实现这一核心能力的背后,源于华为独创的iLossless智能无损算法,华为智能无损高性能计算网络通过流量控制技术、拥塞控制技术、流量调度技术和应用加速等技术的结合,解决发送端与接收端的速率匹配问题、网络拥塞时对流量的速率控制问题、业务流量与网络链路的负载均衡性等问题,从而让0丢包、低时延、高吞吐成为可能,并通过对超算网络的流量模型进行分析,进而支持各种计算密集型和数据密集型应用的高效运行。

无论是预防PFC死锁的发生、缓解/解除拥塞、进行负载分担/网络均衡,还是差异化SLA动态优化保障,一个真正的智能无损高性能计算网络就此形成,这也为武汉超算中心带来了显著价值。

一是满足了网络高性能的建设诉求。武汉超算中心在项目部署前通过对96节点集群规模进行全面的对比测试,在MPI、Benchmark和HPC典型应用测试中,华为智能无损高性能计算网络性能与InfiniBand网络整体基本持平,局部小幅领先,完全满足业务的高性能需求。

wKgZomTtxlOALuZUAALqPRHo74M085.png

二是显著降低了网络的建设、运维成本。基于标准的以太网架构,华为超融合以太网络解决方案带来了一张统一融合的网络。通过将通用计算、存储和高性能计算统一承载在0丢包以太网技术栈上,打破传统分散架构限制,实现从三张网到一张网的融合部署。从而降低了网络的建设成本,而不必再进行计算和存储网络的独立建设,同时降低了运维成本,支持SDN云网自动化,提升了运维效率。

整体看来,武汉超算中心为释放极致算力,打造了一张性能、兼容性、成本效益和灵活性兼具的高性能网络。目前,超融合以太网络解决方案正在成为越来越多政企构建HPC和AI极致算力的选择。

多云异构算力演进,
无损以太网络迎来广阔发展空间

wKgZomTtxlKAUMwqAAAG5GHQZWM552.png

《湖北省加快发展算力与大数据产业三年行动方案(2023—2025年)》提出,力争到2025年成为国家算力网络中部枢纽,建成全国算力与大数据创新发展的核心区。基于超融合以太解决方案打造领先的超算和人工智能计算中心,携手华为构建面向HPC和AI计算的智能无损高性能计算网络,湖北正全力向算力、存力、运力的全国第一梯队迈近,由“九省通衢”迈向“数字通衢”。

面向未来,数据中心正快速朝着多云异构算力演进,随着HPC和AI应用的不断发展,网络带宽吞吐的需求也越来越大,以太网络正从100GE向200GE、400GE和800GE等更高速率发展。在可预见的将来,低时延、高吞吐的无损以太全球生态将会更加成熟,为多元算力提供强大的网络底座,超融合以太网络解决方案也将迎来更广阔的发展空间。

wKgZomTtxlSAJtXVAAEeyHFS5w4584.png

wKgZomTtxlSAIlesAABH79rerUY388.gif 点击“阅读原文”,了解更多华为数据通信资讯!


原文标题:CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    34470

    浏览量

    251950

原文标题:CCF HPC China 2023 | 武汉超算:超级算力背后的“超级网络”

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    软通动力受邀出席第六届中国超级大会

    近日,以“智、大模型、新经济”为主题的第六届中国超级大会ChinaSC2024在北京盛大召开,就算
    的头像 发表于 11-20 11:52 371次阅读

    联想亮相第六届中国超级大会

    近日,以“智,大模型,新经济”为主题的第六届中国超级大会(ChinaSC2024)在北京举办,六位院士携手数十位专家齐聚此次盛会,深
    的头像 发表于 11-18 17:47 442次阅读

    本源“量融合先进计算平台”入选2024中国·年度重大成果

    近日,2024中国大会在河南郑州开幕。大会主论坛上,“中国·年度重大成果”正式发布8项具有突破性意义的技术成果。本源量子与郑州大学国家超级
    的头像 发表于 10-16 08:06 384次阅读
    本源“量<b class='flag-5'>超</b>融合先进计算平台”入选2024<b class='flag-5'>算</b><b class='flag-5'>力</b>中国·年度重大成果

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 编辑 感谢平台提供的书籍,厚厚的一本,很有分量,感谢作者的倾力付出成书。 本书主要讲芯片CPU
    发表于 10-15 22:08

    浅析三大之异同

    随着一年多前ChatGPT的出现引爆人工智能(AI)浪潮,支撑大模型背后的“”概念突然闯进我们的视野,成为科技圈炙手可热的新词,引领着最新潮流。作为数字经济时代新生产,也许不少人
    的头像 发表于 08-30 12:56 931次阅读
    浅析三大<b class='flag-5'>算</b><b class='flag-5'>力</b>之异同

    超高“质”量——CCF HPC China 2024主题论坛正式公布

    积蓄点点星火,以待磅礴进发,第 20 届 CCF 全国高性能计算学术年会(以下简称“CCF HPC China 2024”)携超高“质”量的学术阵容及精彩议题,如期而来。大会将于 20
    的头像 发表于 07-19 09:55 331次阅读
    超高“质”量——<b class='flag-5'>CCF</b> <b class='flag-5'>HPC</b> <b class='flag-5'>China</b> 2024主题论坛正式公布

    马斯克欲建xAI超级工厂

    在最近的一次投资者演讲中,人工智能创业公司xAI的创始人马斯克公布了公司的最新宏大计划。他宣布,xAI计划打造一个由数万个专用芯片组成的超级计算机,命名为“
    的头像 发表于 05-27 10:29 611次阅读

    软通动力亮相2024中国移动网络大会,共绘网络新蓝图

    4月28日至29日,以“网络点亮AI新时代”为主题的2024中国移动网络大会在苏州隆重举
    的头像 发表于 05-06 10:20 484次阅读
    软通动力亮相2024中国移动<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>网络</b>大会,共绘<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>网络</b>新蓝图

    一文详解中的InfiniBand网络、HDR与IB

    InfiniBand技术被认为是面向未来的高性能计算(HPC)标准,在超级计算机、存储甚至LAN网络HPC连接方面享有很高的声誉。
    的头像 发表于 04-16 10:18 6835次阅读
    一文详解<b class='flag-5'>超</b><b class='flag-5'>算</b>中的InfiniBand<b class='flag-5'>网络</b>、HDR与IB

    十问:,通存比

    邬贺铨指出,现有测算方法难以精准衡量。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器集群的
    的头像 发表于 04-13 11:40 4547次阅读

    “捷智”正式入驻国家互联网平台

    ABSTRACT摘要2024年4月2日,本公司旗下服务品牌“捷智”正式入驻国家互联网平台,开设云gpu旗舰店。我们将借助国家
    的头像 发表于 04-12 08:26 600次阅读
    “捷智<b class='flag-5'>算</b>”正式入驻国家<b class='flag-5'>超</b><b class='flag-5'>算</b>互联网平台

    智能规模通用,大模型对智能提出高要求

    的缩写,即每秒所能够进行的浮点运算数目(每秒浮点运算量)。   可以分为通用、智能
    的头像 发表于 02-06 00:08 6387次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    国产ARM建设历程 Arm计算在领域的实践

    ARM 指令集兼容架构已成为HPC 主流技术与未来发展的重要趋势,可满足大型系统与商用HPC 系统的技术需求。
    的头像 发表于 01-25 14:06 1257次阅读
    国产ARM<b class='flag-5'>超</b><b class='flag-5'>算</b>建设历程 Arm计算在<b class='flag-5'>超</b><b class='flag-5'>算</b>领域的实践

    网络面临三大挑战

    2024年,以AIGC为代表的人工智能技术将进一步激发需求,网络、智中心、
    的头像 发表于 01-12 10:39 1130次阅读