0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

转载|数据中心网络持续进阶,超融合以太技术正当其时

华为数据通信 来源:未知 2022-12-16 19:15 次阅读

7ca2e142-7d32-11ed-8abf-dac502259ad0.png

随着数字经济进入“算力时代”,在算力蓬勃发展的同时,打造一张与时俱进的高水平数据中心网络显得尤为重要。近日,华为联合中国信息通信研究院共同发布的数据中心超融合以太技术白皮书,就为我们擘画了一张高水平数据中心网络的新蓝图。

决定一个木桶能装多少水的往往是最短的那块木板,那么,算力时代的数据中心最短的那块木板是什么呢?

7de18a18-7d32-11ed-8abf-dac502259ad0.png

数据中心网络是实现数据传输的重要通道,也是推动数据中心算力服务能力升级,实现算力充分释放的关键。数据中心网络主要负责连接用户终端以及数据中心内部的计算、存储等设备,保障数据通信网络链路上高效、安全的传输。

《中国综合算力指数(2022年)》报告中明确指出计算、存储和网络是算力最重要的组成部分,在数字经济发展新时期,要更加关注构建集算力、存力和运力于一体的数据中心。由于网络设备算力水平无法满足要求而引发的“木桶效应”,可能会拉低整个数据中心的实际算力水平。因此,要提升数据中心算力服务能力,就需要进一步提升数据中心网络性能。

IDC分析报告显示,以太网是当前以及未来数据中心的主要技术,当前数据中心以太网占比已经接近95%。众所周知,标准以太网络采用尽力而为的工作机制,天然有丢包的特性对存储的性能稳定性带来了极大的影响。算力时代,0.1%的丢包会导致50%的算力损失。因此传统以太网已经不适应现在算力时代数据中心的要求。推动以太网进化从而搭建先进网络架构的时代已然来临,以太网正在从“尽力而为”型向“性能敏感”型网络演进。

从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六个方面来看,数据中心网络正在从传统以太、无损以太向超融合以太升级。

7e23ad8a-7d32-11ed-8abf-dac502259ad0.png

具体来看,超融合以太技术具备五大优势。

01 网络级负载均衡算法,释放AI算力

AI集群训练过程中,参数通过高速互联网络在不同的服务器间进行同步交互,这些通信流量具有共同的特征:流量成周期性、流数量少、流量长连接、并行任务间有强实时同步性要求,通信效率取决于最慢的节点,并且AI集群训练场景下,传输的数据量较大。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题,从而影响AI集群训练的性能。

现有创新的网络均衡技术NSLB是面向AI训练场景量身打造的,根据该场景下的流量特征,将搜集到的整网信息作为创新算路算法的输入,从而得到最优的流量转发路径,实现AI训练场景下整网流量100%的均衡度和AI训练性能的提升。

02 端网协同拥塞控制实现存储算力优化

高性能计算、AI模型训练等应用场景,以及数据中心网络/云网络在架构上的发展(资源池化),均要求网络传输排队时延和吞吐上的进一步性能提升。

端网协同拥塞控制技术采用“端(智能网卡)网(交换机)”配合的方式达到交换机上的近似“零排队”时延,使得端到端传输时延接近静态时延。

端网协同主要根据网络可用带宽,调整端侧发送速率,这种源端与交换机之间的密切配合使网络中的队列近乎为空,同时能保持接近100%的利用率。和当前业界主流的协同算法相比,端网协同算法C-AQM能够把排队时延控制得极低,接近于0,同时瓶颈链路达到接近100%利用率。

03

数据面快速收敛
提供分布式数据库高可靠算力

随着业务发放速度的不断加快,以及引入了VM、容器等虚拟化技术,网络流量的不确定性增加。而当前运维手段有限,仍然依靠传统网管和命令行方式进行查看、监控,分钟级的网络监控已经无法满足业务秒级体验保障的要求,往往被动感知故障。故障发生后,定位仍主要依赖专家经验,利用多种辅助工具,逐段定界、逐流分析、抓包定位,效率十分低下。

网络故障收敛慢对业务稳定性产生的负面影响,尤其会造成高性能数据库类业务性能的严重下降。为了解决上述故障收敛慢的问题,华为提出了一种基于网络设备数据面的链路故障快速自愈技术,称为DPFF(Data Plane Fast Failover)。该技术基于转发芯片硬件编程能力构建。DPFF从传统的基于控制面软件协议的收敛方式演进到基于数据面硬件极速感知故障和快速换路的收敛方式,并且基于数据面硬件实现远程通告和快速换路,可达到亚毫秒级(<1ms)的收敛速度,将对业务性能的影响降至最低。该技术为高性能数据库、存储以及超算等关键应用提供了极致的高可靠性保证和稳定性体验。

测试结果表明,DPFF收敛方案比传统的OSPF收敛方案在链路故障下,每100ms周期内完成交易事务数量下降减少60%~80%。

04

网络架构创新
构建E/10E级超大规模算力集群

5G、万物互联智能时代产生海量数据,智能训练大模型部署,国家新一代超级计算中心的规划建设……爆炸式增长的算力需求与实际算力增长速度之间存在巨大鸿沟。在后摩尔时代,通过构建大规模并行计算集群满足不断增长的算力需求,如10E级计算集群其计算服务器规模达到20万以上。

计算集群网络传统采用CLOS架构,以业界常见的64口盒式交换机为例,3级CLOS架构,最大可支持6.5万服务器接口,不满足10E级计算集群规模诉求。如果增加网络层数则会带来网络跳数增加,通信时延不满足业务需求。

业界针对该问题开展了多样的架构研究和新拓扑的设计。直连拓扑在超大规模组网场景下,因为网络直径短,具备低成本、端到端通信跳数少的特点。以64口盒式交换机构建10万个节点超大规模集群为例,传统的CLOS架构需要部署4层组网,端到端通信最大需要跨7跳交换机。使用无阻塞直连拓扑组网,端到端交换机转发跳数最少只3跳,交换机台数(整体投资)下降40%。

05

业务级SLA保障
实现数据中心一张网

为了解决这个难题,华为提出超融合智能无损网络方案,将业务级SLA智能保障技术引入到交换机中,用iLossless智能无损算法代替专家经验,对网络流量的变化进行基于队列级捕获和预测,实现细粒度动态差异化优化。结合不同业务的流量变化情况以及业务特征,实现不同业务流量差异化动态优化保障。

根据实验室测试,采用3台华为交换机组成2级Spine-Leaf组网,每台接入层交换机下挂16台100GE服务器,Spine与每个Leaf之间采用4个400G互联(1:1收敛)。在计算和存储benchmark流量混跑的测试环境下,智能无损算法相比于传统算法配置,在保持存储持平前提下,能够有效降低计算任务的总体完成时间,在测试场景中实现最高20%以上的计算时延降低。

随着数字产业智能化向智能世界发展,未来数据中心将朝着多云异构算力演进,要构建强大的算力,需要各类资源高度协同,深度融合。新算力,对网络提出了新的诉求,下一代数据中心需要超融合以太技术给新算力进行新的赋能,以应对新的挑战。作为数据中心动脉血管新的路标,一张开放、自主的超融合以太网络将多维度与各类算力资源协同,全面提升网络性能,通过网络全栈技术的持续创新,为新算力赋能,释放更高算力,从而助力“高算力、高安全、高效能、高可靠”的新型算力中心建设。


原文标题:转载|数据中心网络持续进阶,超融合以太技术正当其时

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    34417

    浏览量

    251546

原文标题:转载|数据中心网络持续进阶,超融合以太技术正当其时

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NIDA发布《智算数据中心网络建设技术要求》

    Alliance,以下简称 “NIDA”)携手中国信息通信研究院等9家组织成员共同发布了《智算数据中心网络建设技术要求》(以下简称 “技术要求”)。该
    的头像 发表于 12-04 11:13 342次阅读

    Meta AI数据中心网络用了哪家的芯片

    构建更加灵活、可扩展和高效的新系统。 自2011年帮助创建OCP以来,我们分享了数据中心和组件设计,并开源了网络编排软件,以激发自己的数据中心和整个行业的新想法。这些想法使Meta的数据中心
    的头像 发表于 11-25 10:05 351次阅读
    Meta AI<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>用了哪家的芯片

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接技术的发展变得尤为关键。
    的头像 发表于 10-22 16:23 286次阅读

    融合一体机是服务器吗?与服务器有什么区别

    融合一体机不是单纯的服务器,它是一种基于融合技术构建的IT基础设施解决方案,集成了软件和硬件,提供计算、存储和
    的头像 发表于 08-14 11:50 887次阅读

    数据中心、智算中心中心,有何区别?

    数据中心、智算中心中心是当前计算机领域中比较重要的研究方向,三者虽然都属于数据中心的范畴,但在服务领域、
    的头像 发表于 06-22 08:27 5335次阅读
    云<b class='flag-5'>数据中心</b>、智算<b class='flag-5'>中心</b>、<b class='flag-5'>超</b>算<b class='flag-5'>中心</b>,有何区别?

    数据中心液冷需求、技术及实际应用

    夏日炎炎,数据中心制冷技术全新升级,液冷散热,让服务器清凉一夏。本文将带您一起探索数据中心液冷需求、技术及实际应用。 1 数据中心液冷需求
    的头像 发表于 06-19 11:12 995次阅读
    <b class='flag-5'>数据中心</b>液冷需求、<b class='flag-5'>技术</b>及实际应用

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛中,华为面向中东中亚地区发布星河AI数据中心网络
    的头像 发表于 05-15 09:15 651次阅读
    HNS 2024:星河AI<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>,赋AI时代新动能

    融合架构解决方案

    随着信息技术的发展,企业对数据中心的依赖日益增强,对存储、计算和网络资源的需求也在不断增长。融合架构作为一种新兴的IT基础设施解决方案,正
    的头像 发表于 04-10 14:57 634次阅读

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    CloudFabric3.0融合数据中心网络全新升级,携手共筑算力新联接

    在华为中国合作伙伴大会2024期间,华为举办了以“融合数据中心网络,携手共筑算力新联接”为主题的数据中心网络分论坛。
    的头像 发表于 03-19 09:18 879次阅读

    数据中心市场的关键以太网解决方案

    了解数据中心市场动态的关键在于以太网解决方案。Synopsys负责产品管理和高性能计算IP的副总裁Michael Posner说:“以太网在数据中心中根深蒂固……虽然它并不广为人知,但
    发表于 03-12 09:53 446次阅读
    <b class='flag-5'>数据中心</b>市场的关键<b class='flag-5'>以太</b>网解决方案

    锐捷网络数据中心以太全光等创新解决方案亮相2024MWC

    在西班牙巴塞罗那举行的2024年世界移动通信大会(MWC)上,锐捷网络(下文简称“锐捷”)展示了将技术与应用充分融合的云数据中心、5G、光网络
    的头像 发表于 03-01 11:20 469次阅读
    锐捷<b class='flag-5'>网络</b>携<b class='flag-5'>数据中心</b>、<b class='flag-5'>以太</b>全光等创新解决方案亮相2024MWC

    KVM矩阵技术的未来趋势:融合新兴科技,引领数据中心管理新潮流

    随着信息技术持续进步,KVM矩阵技术作为数据中心管理的核心组件,正不断融合新兴科技,以应对日益增长的
    的头像 发表于 02-18 14:34 501次阅读
    KVM矩阵<b class='flag-5'>技术</b>的未来趋势:<b class='flag-5'>融合</b>新兴科技,引领<b class='flag-5'>数据中心</b>管理新潮流

    融合和虚拟化的区别

    融合和虚拟化是当今IT领域非常热门的两个概念,它们都是为了提高数据中心的效能和灵活性,但在实现方式和功能上存在一些区别。本文将详细讨论融合
    的头像 发表于 01-15 10:36 4231次阅读

    #光缆水峰 #综合布线光缆 #数据中心

    数据中心光缆
    jf_51241005
    发布于 :2024年01月15日 09:43:26