0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在ZTR无配置大规模中实现的缩放零接触RoCE技术

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-14 14:15 次阅读

NVIDIA Zero Touch RoCE ( ZTR )使数据中心能够无缝部署 聚合以太网上的 RDMA ( RoCE ) ,而无需任何特殊交换机配置。直到最近, ZTR 还仅适用于中小型数据中心。同时,大规模部署传统上依赖于显式拥塞通知( ECN )来启用 RoCE 网络传输,这需要交换机配置。

新的 NVIDIA 拥塞控制算法往返时间拥塞控制( RTTCC ) – 允许 ZTR 在不影响性能的情况下扩展到数千台服务器。通过使用 ZTR 和 RTTCC ,数据中心运营商可以在无需任何交换机配置的情况下,享受部署和操作的便利性,以及大规模远程直接内存访问( RDMA )的卓越性能。

这篇文章描述了以前在大规模和小型 RoCE 部署中推荐的 RoCE 拥塞控制。然后介绍了一种新的拥塞控制算法,该算法允许 ZTR 的无配置大规模实现,其性能类似于支持 ECN 的 RoCE 。

具有数据中心量化拥塞通知的 RoCE 部署

在典型的基于 TCP 的环境中,分布式内存请求需要许多步骤和 CPU 周期,这会对应用程序性能产生负面影响。 RDMA 消除了服务器之间内存数据传输的所有 CPU 参与,大大加快了对存储数据的访问和应用程序性能。

RoCE 在以太网环境中提供 RDMA ,这是数据中心的主要网络结构。以太网需要高级拥塞控制机制来支持 RDMA 网络传输。数据中心量化拥塞通知( DCQCN )是一种拥塞控制算法,能够响应拥塞通知并动态调整流量传输速率。

DCQCN 的实现需要启用显式拥塞通知( ECN ),这需要配置网络交换机。 ECN 将交换机配置为设置拥塞经历( CE )位,以指示即将发生的拥塞。

具有无功拥塞控制的零接触 RoCE

NVIDIA 开发的 ZTR 技术允许 RoCE 部署,无需配置交换机基础设施。 ZTR 根据 InfiniBand Trade Association ( IBTA ) RDMA 标准构建,完全符合 RoCE specifications ,支持 RoCE 的无缝部署。 ZTR 还拥有与传统交换机启用的 RoCE 相当的性能,并且明显优于传统的基于 TCP 的内存访问。此外,通过 ZTR , RoCE 网络传输服务在普通 TCP / IP 环境中与非 RoCE 通信并行运行。

正如 NVIDIA 零接触 RoCE 技术为 Microsoft Azure Stack HCI 实现了云经济 文章中所指出的,微软已经为其 Azure Stack HCI 平台验证了 ZTR ,该平台通常可扩展到几十个节点。在这样的环境中, ZTR 依赖于隐式丢包通知,这对于小规模部署来说已经足够了。通过添加新的基于往返计时器( RTT )的拥塞控制算法, ZTR 变得更加健壮和可扩展,而无需依赖丢包来通知服务器网络拥塞。

引入往返时间拥塞控制

新的 NVIDIA 拥塞控制算法 RTTCC 主动监控网络 RTT ,以便在丢弃数据包之前主动检测并适应拥塞的发生。 RTTCC 使用基于硬件的反馈环路实现动态拥塞控制,与基于软件的拥塞控制算法相比,该反馈环路提供了显著优越的性能。 RTTCC 还支持更快的传输速率,可以在更大范围内部署 ZTR 。带有 RTTCC 的 ZTR 现在作为测试版功能提供, GA 计划在 2022 年下半年推出。

ZTR-RTTCC 的工作原理

ZTR-RTTCC 通过基于硬件 RTT 的拥塞控制算法扩展了 RoCE 网络中的 DCQCN 。

图 1 服务器之间的往返计时

定时数据包(上图中的绿色网络数据包)定期从启动器发送到目标。立即返回定时数据包,从而能够测量往返延迟。 RTTCC 测量数据包发送和启动器接收数据包之间的时间间隔。差异(接收时间–发送时间)衡量往返延迟,这表明路径拥塞。未压缩流继续传输数据包,以最佳利用可用网络路径带宽。延迟增加的流意味着路径拥塞, RTTCC 会对流量进行节流,以避免缓冲区溢出和数据包丢失。

随着拥塞的减少或增加,网络流量可以实时地向上或向下调整。主动监控和应对拥塞的能力对于使 ZTR 能够主动管理拥塞至关重要。这种主动速率控制还可以减少数据包的重新传输,提高 RoCE 性能。使用 ZTR-RTTCC ,数据中心节点不会等待数据包丢失的通知;相反,它们主动识别拥塞 prior to 数据包丢失并作出相应反应,通知启动器调整传输速率。

如前所述, ZTR 的一个关键优势是能够提供 RoCE 功能,同时在普通 TCP / IP 流量中与非 RoCE 通信同时运行。 ZTR 提供 RoCE 网络功能的无缝部署。通过添加 RTTCC 主动监控拥塞, ZTR 提供数据中心范围内的操作,无需交换机配置。请继续阅读,看看它的性能如何。

具有 RTTCC 性能的 ZTR

如图 2 所示,当通过网络结构配置 ECN 和 PFC 时,带有 RTTCC 的 ZTR 提供了与 RoCE 相当的应用程序性能。这些测试是在最坏的多对一( in-cast )情况下进行的,以模拟拥挤条件下的吞吐量。

结果表明,具有 RTTCC 的 ZTR 不仅可以扩展到数千个节点,而且其性能与目前可用的最快 RoCE 解决方案相当。

在小规模( 256 个连接及以下)下,具有 RTTCC 的 ZTR 在启用 ECN 拥塞控制(传统 RoCE )的 RoCE 的 99% 范围内执行。

通过 16000 多个连接,具有 RTTCC 吞吐量的 ZTR 是传统 RoCE 吞吐量的 98% 。

带有 RTTCC 的 ZTR 在不需要任何开关配置的情况下,提供了与传统 RoCE 几乎相同的性能。

图 2 连接不断增加的应用程序带宽

配置 ZTR

要使用新的 RTTCC 算法配置 ZTR , 下载 并为 NVIDIA 网络接口卡安装最新固件和工具,请执行以下步骤。

配置 ZTR

要使用新的 RTTCC 算法配置 ZTR , 下载 并为 NVIDIA 网络接口卡安装最新固件和工具,请执行以下步骤。

使用mlxconfig(持续配置)启用可编程拥塞控制:

mlxconfig -d /dev/mst/mt4125_pciconf0 -y s
ROCE_CC_LEGACY_DCQCN=0

使用mlxfwreset重置设备或重新启动主机:

mlxfwreset -d /dev/mst/mt4125_pciconf0 -l 3 -y r

完成这些步骤后,当 RDMA-CM 用于增强连接建立( ECE , MLNX _ OFED 版本 5.1 支持)时,将使用 ZTR-RTTCC 。

如果出现错误,无论 RDMA-CM 同步状态如何,都可以强制使用 ZTR-RTTCC :

mlxreg -d /dev/mst/mt4125_pciconf0 --reg_id 0x506e --reg_len
0x40 --set "0x0.0:8=2,0x4.0:4=15" -y

总结

NVIDIA RTTCC 是 ZTR 的新拥塞控制算法,在数据中心范围内提供卓越的 RoCE 性能,无需对交换机基础设施进行任何特殊配置。此增强功能使数据中心能够在现有和新的数据中心基础架构中无缝实现 RoCE ,并从即时的应用程序性能改进中获益。

关于作者

Aviv Barnea 是 NVIDIA 网络软件工程的高级主管。他监督网络适配器 RDMA 软件和拥塞控制机制的开发,实现高速、低延迟的数据中心连接。 Aviv 是 RDMA 和 RoCE 通信协议方面的专家,拥有该领域的多项专利,在推动 RDMA / RoCE 在业界的发展方面发挥了重要作用,在客户和合作伙伴大规模部署加速网络解决方案时与他们密切合作,并实现了无与伦比的性能和易用性。 Aviv 拥有特拉维夫大学工商管理硕士学位和理工学院物理与电气工程学士学位。

Itay Ozery 是 NVIDIA 网络产品营销总监。他为 Mellanox 的云网络解决方案推动战略性产品营销和产品管理计划。 Itay 在网络安全领域领导了大规模的业务和项目,并与数据中心和电信服务提供商在 IT 系统和网络工程领域担任过多个职位。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 接口
    +关注

    关注

    33

    文章

    8458

    浏览量

    150744
  • NVIDIA
    +关注

    关注

    14

    文章

    4862

    浏览量

    102722
收藏 人收藏

    评论

    相关推荐

    FPGA仿真黑科技\"EasyGo Vs Addon \",助力大规模电力电子系统仿真

    可以轻松地将其与各种硬件和协议连接,增强测试系统的灵活性。二、产品亮点▍超强FPGA芯片与接口配置,助力大规模电力电子系统仿真EasyGo Vs Addon支持的PXIe 7891搭载全新
    发表于 10-23 18:18

    云平台大规模设备管理和数据分析的作用

    在当代数字化转型的浪潮,云平台作为信息技术基础设施的核心组件,扮演着无可替代的角色,尤其大规模设备管理和数据分析领域,其重要性和影响力日益凸显。本文旨在深入探讨云平台如何通过其独特
    的头像 发表于 09-19 17:22 194次阅读
    云平台<b class='flag-5'>在</b><b class='flag-5'>大规模</b>设备管理和数据分析<b class='flag-5'>中</b>的作用

    使用DSPLIB FFT实现实现实际输入,无需数据缩放

    电子发烧友网站提供《使用DSPLIB FFT实现实现实际输入,无需数据缩放.pdf》资料免费下载
    发表于 09-19 11:27 0次下载
    使用DSPLIB FFT<b class='flag-5'>实现实现</b>实际输入,无需数据<b class='flag-5'>缩放</b>

    大规模语言模型:从理论到实践】- 每日进步一点点

    非常推荐大家去读 【大规模语言模型:从理论到实践】这本书,系统的讲解了大模型的前世今生,对各个环节知识进行了普及。 今天跟我一起学习归一化的部分。 大模型训练的归一化是一个关键步骤,旨在提高模型
    发表于 05-31 19:54

    摩尔线程与问芯穹国产GPU上首次实现大模型实训

    近日,摩尔线程与问芯穹共同宣布,双方已正式完成基于国产全功能GPU千卡集群的3B规模大模型实训。这款名为“MT-infini-3B”的模型,摩尔线程夸娥(KUAE)千卡智算集群与
    的头像 发表于 05-27 10:59 619次阅读

    深度解读RoCE v2的核心技术原理

    RoCE v2是一种专为实现以太网环境下低延迟、高吞吐量数据传输而设计的RDMA协议。相较于涉及多重处理层次的传统数据传输方式,RoCE v2实现了系统间的直接内存访问机制,最大限度地
    发表于 04-29 10:32 4223次阅读
    深度解读<b class='flag-5'>RoCE</b> v2的核心<b class='flag-5'>技术</b>原理

    专用集成电路都是大规模的吗为什么呢

    的集成度和性能优势。然而,并非所有专用集成电路都是大规模的,因为集成度的大小取决于设计和制造的要求。 探讨专用集成电路是否大规模之前,我们首先需要了解什么是大规模集成电路(Very
    的头像 发表于 04-21 09:15 472次阅读

    英特尔实现3D先进封装技术大规模量产

    近日,英特尔宣布已经实现了基于业界领先的半导体封装解决方案的大规模生产,其中包括其突破性的3D封装技术Foveros。这项技术为多种芯片的组合提供了前所未有的灵活选择,为功耗、性能和成
    的头像 发表于 02-01 14:40 639次阅读

    英特尔实现大规模生产3D封装技术Foveros

    英特尔最近宣布,他们已经实现了基于业界领先的半导体封装解决方案的大规模生产,其中包括具有划时代意义的3D封装技术Foveros。
    的头像 发表于 01-26 16:53 1364次阅读

    英特尔3D封装技术实现大规模量产

    近日,英特尔(Intel)宣布,其已成功实现基于业界领先的半导体封装解决方案的大规模生产,其中包括突破性的3D封装技术Foveros。这一技术
    的头像 发表于 01-26 16:03 563次阅读

    英特尔实现3D先进封装技术大规模量产

    英特尔宣布已实现基于业界领先的半导体封装解决方案的大规模生产,其中包括英特尔突破性的3D封装技术Foveros,该技术为多种芯片的组合提供了灵活的选择,带来更佳的功耗、性能和成本优化。
    的头像 发表于 01-25 14:24 267次阅读

    GGII预计2024快充大规模应用元年将至

    GGII预计2024年国新上市2C以上快充车型将超过15款,快充大规模应用元年正在到来。
    的头像 发表于 01-05 10:05 758次阅读
    GGII预计2024快充<b class='flag-5'>大规模</b>应用元年将至

    对话国产EDA和IP厂商,如何攻克大规模数字电路设计挑战?

    芯片设计企业关注的焦点。作为芯片产业的根技术和硬科技,EDA和IP大规模数字电路设计中发挥着不可替代的作用,也是集成电路技术发展的重要助推器。其运用的好坏,决定着
    的头像 发表于 12-28 08:23 1156次阅读
    对话国产EDA和IP厂商,如何攻克<b class='flag-5'>大规模</b>数字电路设计挑战?

    实现大规模量子计算的品质保证——高保真度

    量子计算,量子门的保真度是评估量子计算机性能的重要指标之一,也是实现大规模量子计算的基础。那么,什么是保真度?哪种量子计算机的保真度最好?保真度≈正确率CIQTEK
    的头像 发表于 11-22 08:24 1151次阅读
    <b class='flag-5'>实现</b><b class='flag-5'>大规模</b>量子计算的品质保证——高保真度

    6G超大规模多天线的技术演进历程

    从3G到5G时代,天线规模发生了显著的变化,5G超大规模天线技术具有许多优势,但面向6G的极致性能要求还需持续演进
    发表于 11-21 09:19 768次阅读
    6G超<b class='flag-5'>大规模</b>多天线的<b class='flag-5'>技术</b>演进历程