0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

看看RDMA让网络实现低时延的绝招

中兴文档 来源:中兴文档 作者:中兴文档 2022-11-15 09:46 次阅读

数据中心现状

随着“新基建”将5G人工智能工业互联网列为新型基础领域,机器学习智能语音交互、自动驾驶等一大批基于高性能计算的应用层出不穷,这些应用带来了数据的爆炸式增长,给数据中心的处理能力带来了很大的挑战。

计算、存储和网络是推动数据中心发展的三驾马车。计算随着CPUGPUFPGA的发展,算力得到了极大的提升。存储随着闪存盘(SSD)的引入,数据存取时延已大幅降低。但是网络的发展明显滞后,传输时延高,逐渐成为了数据中心高性能的瓶颈。

e9e9c194-6473-11ed-8abf-dac502259ad0.png

在数据中心内,70%的流量为东西向流量(服务器之间的流量),这些流量一般为数据中心进行高性能分布式并行计算时的过程数据流,通过TCP/IP网络传输。如果服务器之间的TCP/IP 传输速率提升了,数据中心的性能自然也会跟着提升。

ea04aa54-6473-11ed-8abf-dac502259ad0.png

下面我们就来看看服务器之间数据TCP/IP 传输的过程,了解下“时间都去哪了”,才好“对症下药”。

服务器间的TCP/IP传输

在数据中心,服务器A向服务器B发送数据的过程如下:

1、CPU控制数据由A的APP Buffer拷贝到操作系统Buffer。

2、CPU控制数据在操作系统(OS)Buffer中添加TCP、IP报文头。

3、添加TCP、IP报文头后的数据传送到网卡(NIC),添加以太网报文头。

4、报文由网卡发送,通过以太网络传输到服务器B网卡。

5、服务器B网卡卸载报文的以太网报文头后,将其传输到操作系统Buffer。

6、CPU控制操作系统Buffer中的报文卸载TCP、IP报文头。

7、CPU控制卸载后的数据传输到APP Buffer中。

ea38b1b4-6473-11ed-8abf-dac502259ad0.png

从数据传输的过程可以看出,数据在服务器的Buffer内多次拷贝,在操作系统中需要添加/卸载TCP、IP报文头,这些操作既增加了数据传输时延,又消耗了大量的CPU资源,无法很好得满足高性能计算的需求。

那么,如何构造高吞吐量、超低时延和低CPU开销的高性能数据中心网络呢?RDMA技术可以做到。

什么是RDMA

RDMA( Remote Direct Memory Access,远程直接地址访问技术 )是一种新的内存访问技术,可以让服务器直接高速读写其他服务器的内存数据,而不需要经过操作系统/CPU耗时的处理。

RDMA不算是一项新技术,已经广泛应用于高性能(HPC)科学计算中。随着数据中心高带宽、低时延的发展需求,RDMA也开始逐渐应用于某些要求数据中心具备高性能的场景中。

举个例子,2021年某大型网上商城的双十一交易额再创新高,达到5000多亿,比2020年又增长了近10%。如此巨大的交易额背后是海量的数据处理,该网上商城采用了RDMA技术来支撑高性能网络,保障了双十一的顺畅购物。

下面我们一起来看看RDMA让网络实现低时延的绝招吧。

RDMA将服务器应用数据直接由内存传输到智能网卡(固化RDMA协议),由智能网卡硬件完成RDMA传输报文封装,解放了操作系统和CPU。

ea6f6d12-6473-11ed-8abf-dac502259ad0.png

这使得RDMA具有两大优势:

Zero Copy(零拷贝):无需将数据拷贝到操作系统内核态并处理数据包头部的过程,传输延迟会显著减小。

Kernel Bypass(内核旁路)和Protocol Offload(协议卸载):不需要操作系统内核参与,数据通路中没有繁琐的处理报头逻辑,不仅会使延迟降低,而且也大大节省了CPU的资源。

ea949f1a-6473-11ed-8abf-dac502259ad0.png

三大RDMA网络

目前,大致有三类RDMA网络,分别是InfiniBand、RoCE(RDMA over Converged Ethernet,RDMA过融合以太网)和iWARP(RDMA over TCP,互联网广域RDMA协议)。RDMA最早专属于Infiniband网络架构,从硬件级别保证可靠传输,而RoCE 和 iWARP都是基于以太网的RDMA技术。

InfiniBand

InfiniBand是一种专为RDMA设计的网络。

采用Cut-Through转发模式(直通转发模式),减少转发时延。

基于Credit的流控机制(基于信用的流控机制),保证无丢包。

要求InfiniBand专用的网卡、交换机和路由器,建网成本最高。

RoCE

传输层为InfiniBand协议。

RoCE有两个版本:RoCEv1基于以太网链路层实现,只能在L2层传输;RoCEv2基于UDP承载RDMA,可部署于三层网络。

需要支持RDMA专用智能网卡,不需要专用交换机和路由器(支持ECN/PFC等技术,降低丢包率),建网成本最低。

iWARP

传输层为iWARP协议。

iWARP是以太网TCP/IP协议中TCP层实现,支持L2/L3层传输,大型组网TCP连接会消耗大量CPU,所以应用很少。

iWARP只要求网卡支持RDMA,不需要专用交换机和路由器,建网成本介于InfiniBand和RoCE之间。

Infiniband技术先进,但是价格高昂,应用局限在HPC高性能计算领域,随着RoCE和iWARPC的出现,降低了RDMA的使用成本,推动了RDMA技术普及。

在高性能存储、计算数据中心中采用这三类RDMA网络,都可以大幅度降低数据传输时延,并为应用程序提供更高的CPU资源可用性。其中InfiniBand网络为数据中心带来极致的性能,传输时延低至百纳秒,比以太网设备延时要低一个量级。

RoCE和iWARP网络为数据中心带来超高性价比,基于以太网承载RDMA,充分利用了RDMA的高性能和低CPU使用率等优势,同时网络建设成本也不高。

基于UDP协议的RoCE比基于TCP协议的iWARP性能更好,结合无损以太网的流控技术,解决了丢包敏感的问题,RoCE网络已广泛应用于各行业高性能数据中心中。

结语

随着5G、人工智能、工业互联网等新型领域的发展,RDMA技术的应用会越来越普及,RDMA将成为助力数据中心高性能的一大功臣。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1626

    文章

    21679

    浏览量

    602090
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2851

    浏览量

    117253
  • RDMA
    +关注

    关注

    0

    文章

    76

    浏览量

    8929

原文标题:RDMA能给数据中心带来什么

文章出处:【微信号:ztedoc,微信公众号:中兴文档】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RoCE与IB对比分析(一):协议栈层级篇

    在 AI 算力建设中, RDMA 技术是支持高吞吐、延迟网络通信的关键。目前,RDMA技术主要通过两种方案实现:Infiniband和Ro
    的头像 发表于 11-15 13:58 834次阅读
    RoCE与IB对比分析(一):协议栈层级篇

    2.34纳秒超低时,满足金融市场高频交易,AMD发布新一代金融加速卡

    是降低成本和获得利润的关键所在。   近日,AMD推出Alveo UL3422 加速卡,它是由 AMD Virtex UltraScale+ FPGA 提供支持,其采用新颖的收发器架构,具备硬化且经过优化的网络连接核,专为高速交易定制打造。它可实现超低时
    的头像 发表于 11-11 01:13 1094次阅读
    2.34纳秒超低时<b class='flag-5'>延</b>,满足金融市场高频交易,AMD发布新一代金融加速卡

    以太网RDMA RoCE的技术局限

    上期我们讲到了RDMA的WHY,WHAT & HOW(AI网络背景下RDMA的Why,What & How),这一期我们来谈一谈RDMA的不足。
    的头像 发表于 10-22 10:02 224次阅读
    以太网<b class='flag-5'>RDMA</b> RoCE的技术局限

    TLV3201电流检测电路的时应该怎么算?

    TLV3201请教一下大佬。这种电流检测电路的时应该怎么算?这里的时指的是从输入电流发生变化到比较器输出反馈的时间。 我的理解是放大器的建立时间+比较器的传输时嘛?比如按照以下放大器和比较器手册中的数据,整个链路上的
    发表于 07-31 07:19

    HarmonyOS实战开发-如何实现音频录制和播放,AudioVivid音乐播放的相关功能

    ||||---Ability.test.ets // 自动化测试用例 具体实现 音频录制和播放-源码参考:audioRecording.cpp录制开发指导文档
    发表于 05-11 20:26

    金融信创优秀解决方案-超低时网络解决方案

    本方案基于中科驭数自主研发的网络DPU卡SWIFT-2200N和超低时数据处理开发平台SWIFT-NDPP
    的头像 发表于 04-30 14:29 796次阅读
    金融信创优秀解决方案-超低时<b class='flag-5'>延</b><b class='flag-5'>网络</b>解决方案

    KPU FLEXFLOW® -2100R是中科驭数完全自研的首款具备RDMA功能的DPU加速卡#RDMA

    DPURDMA
    中科驭数(北京)科技有限公司
    发布于 :2024年03月25日 18:40:59

    利用CXL技术重构基于RDMA的内存解耦合

    本文提出了一种基于RDMA和CXL的新型延迟、高可扩展性的内存解耦合系统Rcmp。其显著特点是通过CXL提高了基于RDMA系统的性能,并利用RDMA克服了CXL的距离限制。
    发表于 02-29 10:05 2669次阅读
    利用CXL技术重构基于<b class='flag-5'>RDMA</b>的内存解耦合

    Multi-Channel PCIe QDMA&RDMA IP应用介绍

    Scather Gather DMA,提供FIFO/AXI4-Stream用户接口。基于PCI Express Integrated Block,Multi-Channel PCIe RDMA Subsystem实现了使用DMA Ring缓冲的独立多通道、高性能/超低延时
    发表于 02-22 14:34 1次下载

    RDMA RNIC虚拟化方案

    远程直接内存访问(Remote Direct Memory Access,RDMA)技术允许应用程序绕过操作系统内核,以零拷贝的方式和远程计算机进行网络通信,具有延迟和高带宽的优势。RDMA
    的头像 发表于 01-23 17:23 1844次阅读
    <b class='flag-5'>RDMA</b> RNIC虚拟化方案

    国产技术创新与实践分享|2024技术创新实践论坛精彩回顾来啦!

    1月19日下午,由中科驭数主办的第二届证券基金行业先进计算技术大会暨2024技术创新实践论坛(上海站)圆满落幕。本次论坛得到了中国计算机学会集成电路设计专委、中国电子工业标准化技术协会新一代
    的头像 发表于 01-20 11:40 1263次阅读

    深入了解RDMA技术

    Explorer,专注于高性能网络、虚拟化网络及网卡的测试方案研究。熟悉dpdk,rdma,sdn等技术的应用与解决方案。
    的头像 发表于 12-26 09:23 1645次阅读
    深入了解<b class='flag-5'>RDMA</b>技术

    rdma网络是什么?RDMA网络有什么应用场景?

    RDMA(Remote Direct Memory Access)网络是一种技术,它通过网络直接在计算机之间传输数据,而无需双方操作系统的介入。这种技术可以允许高吞吐、延迟的
    的头像 发表于 12-22 09:30 1109次阅读

    你的声音被听到:看看你的TWS耳塞是怎么设计的

    你的声音被听到:看看你的TWS耳塞是怎么设计的
    的头像 发表于 12-05 17:25 536次阅读
    <b class='flag-5'>让</b>你的声音被听到:<b class='flag-5'>看看</b>你的TWS耳塞是怎么设计的

    RDMA和TCP/IP有什么区别

    在分布式存储网络中,我们使用的协议有RoCE、Infiniband(IB)和TCP/IP。其中RoCE和IB属于RDMA (RemoteDirect Memory Access)技术,他和传统的TCP/IP有什么区别呢,接下来我们将做详细对比。
    的头像 发表于 11-30 09:19 1690次阅读
    <b class='flag-5'>RDMA</b>和TCP/IP有什么区别