0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

纳多德视点 | InfiniBand十大优势

维维为 来源:维维为 作者:维维为 2022-12-27 17:19 次阅读

poYBAGOquJaARjkZAADbAxqCx9U289.png

InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。

最新发布的全球最强超级计算机排名 Top500 的榜单中,InfiniBand 网络再次以绝对的数量和性能优势蝉联超级计算机互连设备数量榜首,比上次排行榜的数量又有了大幅度的增长。纵观这次的榜单,可以归纳出以下三个趋势:

基于InfiniBand网络的超级计算机以197台的数量大幅领先于其它网络技术。特别在 Top100 的系统中,基于 InfiniBand 网络的超级计算机更是遥遥领先,InfiniBand 网络已经成为了追求性能的超级计算机的标配。

NVIDIA网络产品成为Top500系统中的主流互连设备,其中超过三分之二的超级计算机在使用NVIDIA网络互连,NVIDIA 网络的性能和技术领先性已经得到了广泛认可。

还值得一提的是,InfiniBand网络不仅在传统的HPC业务,在企业级数据中心和公有云上也已被广泛使用。目前性能第一的企业级超级计算机NVIDIA Selene 和微软公司的Azure公有云都在利用InfiniBand网络来发挥其超高的业务性能。

无论是数据通讯技术的演进、互联网技术的革新、还是视觉呈现的升级,都是得益于更强大的计算、更大容量更安全的存储以及更高效的网络;基于InfiniBand网络为基础的集群架构方案,不仅可以提供更高带宽的网络服务,同时也降低了网络传输负载对计算资源的消耗,降低了延时,又完美地将HPC与数据中心融合。

为什么InfiniBand网络在 Top500 中受到如此高的重视?其性能优势起到了决定性的作用。下面,纳多德将InfiniBand十大优势总结如下:

1. 简单的网络管理

InfiniBand是第一个真正意义上原生按照SDN设计的网络架构,它由子网管理器来管理。

子网管理器对本地子网进行配置并确保能连续运行。所有的信道适配器和交换机都必须实现一个SMA,该SMA与子网管理器一起实现对通信的处理。每个子网必须至少有一个子网管理器来进行初始化管理以及在链路连接或断开时对子网进行重新配置。通过仲裁机制来选择一个子网管理器作为主子网管理器,而其他子网管理器工作于待机模式(每个待机模式下的子网管理器都会备份此子网的拓扑信息,并检验此子网是否能够运行)。若主子网管理器发生故障,一个待机子网管理器接管子网的管理以确保不间断运行。

pYYBAGOquJeAYohPAAFTQ5AeTrQ684.png

2. 高带宽

自InfiniBand诞生以来,很长一段时间InfiniBand网络速率的发展都是快于Ethernet的,主要原因就是因为InfiniBand应用于高性能计算中服务器之间的互连,对带宽上的需求更高。

poYBAGOquJiANL8lAACKzh_vyjA545.png

各个速率的缩写如下:

SDR - Single Data Rate

DDR - Double Data Rate

QDR - Quad Data Rate

FDR - Fourteen Data Rate

EDR - Enhanced Data Rate

HDR - High Dynamic Range

NDR - Next Data Rate

XDR - eXtreme Data Rate

3.CPU offload

加速计算的一个关键技术,是CPU卸载。InfiniBand网络架构可以以最少的CPU资源来传输数据,这点是通过下面的方式来做到的:

硬件卸载整个传输层协议栈

Bypass内核,zero copy

RDMA,把一个服务器内存中的数据直接写入另一台的内存,不需要CPU的参与

pYYBAGOquJmACaNMAACTSNA0gCM712.png

同时可以使用GPU Direct技术,可以直接访问GPU内存中的数据,将GPU内存中的数据传输到其他节点。这样可以加速计算类的应用,比如AI, Deep Learning等。

poYBAGOquJqAeN8AAACEzENxi-0653.png

4.低延迟

此处主要分为两部分进行对比,一部分在交换机上,作为网络传输模型中的二层技术,Ethernet交换机普遍采用了MAC查表寻址和存储转发的方式(有部分产品借鉴了InfiniBand的Cut-though技术)由于需要考虑诸如IP、MPLS、QinQ等复杂业务的处理,导致Ethernet交换机处理流程较长,一般会在若干us(支持cut-though的会在200ns以上),而InfiniBand交换机二层处理非常简单,仅需要根据16bit的LID就可以查到转发路径信息,同时采用了Cut-Through技术大大缩短了转发时延至100ns以下,远远快于Ethernet交换机;网卡层面如前所述,采用RDMA技术,网卡转发报文不需要经过CPU,大大加快了报文在封装解封装处理的时延,一般InfiniBand的网卡收发时延(write,send)在600ns,而基于Ethernet上的TCP UDP应用的收发时延会在10us左右,相差十几倍之多。

pYYBAGOquJyAYmQHAAHFZ4uBxj8224.png

5.扩展性和灵活性

IB网络一个主要的优势就是单个子网可以部署一个48,000节点,形成一个巨大的2层网络。而且IB网络不依赖ARP等广播机制,不会产生广播风暴或者额外的带宽浪费。

多个IB子网也可以通过路由器和交换机连接。

IB支持多种网络拓扑:

poYBAGOquJ6AKyAbAAF8Nn-JDZU678.png

规模较小时,建议选用2层fat-tree。更大规模可以采用3层fat-tree的组网拓扑。一定规模以上,可以采用Dragonfly+的拓扑节约一部分成本。

pYYBAGOquKCAIP50AAEBEydT09U397.png

6.QoS

如果多个不同的应用在同一个子网运行,并且其中一些应用需要比其他更高的优先级,IB网络如何提供QoS支持呢?

QoS是一种能力,可以为不同的应用,用户或者数据流提供不同的优先级服务。高优先级的应用可以被映射到不同的端口队列,队列里的报文可以被优先发送。

InfiniBand采用虚通道(VL,即Virtual Lanes)方式来实现QoS。虚通道是一些相互分立的逻辑通信链路,它们共享一条物理链接,每条物理链接可支持多达15条的标准虚通道和一条管理通道(VL15)。

poYBAGOquKGAJIBcAABIUiyl5V0020.png

7.网络稳定性和弹性

理想情况下,网络非常稳定,没有任何故障。但是长期运行的网络不可避免的会出现一些故障,InfiniBand如何处理这些失败,并且快速恢复的呢?

NVIDIA IB解决方案提供一个机制,叫做Self-Healing Networking。自愈网络是一个硬件能力,它基于IB交换机。自愈网络可以让链路故障恢复的时间仅仅需要1毫秒,比普通的恢复时间快5000x倍。

pYYBAGOquKSATCuMAALO5O-9qSo846.png

8.优化的负载均衡

在高性能数据中心里面,一个很重要的需求,是如何提高网络的利用率。其中一种方法是使用负载均衡。

负载均衡是一种路由策略,它让流量在多个可用端口上发送。

Adaptive Routing就是这样一个特性,它可以让流量在交换机端口上均匀的分布。AR在交换机上硬件支持,由Adaptive Routing Manager管理。

当AR开启,交换机上的Queue Manager会监测所有GROUP EXIT端口的流量,均衡每个队列的负载,把流量导向利用率低的端口。AR支持动态负载均衡,避免网络拥塞,并最大化网络带宽利用率。

9.网络计算 - SHARP

IB交换机还支持网络计算的技术,SHARP – Scalable Hierarchical Aggregation and Reduction Protocol.

SHARP是一个基于交换机硬件的软件,并且是一个集中管理的软件包。

SHARP可以把原来在CPU和GPU上运行的集合通信offload到交换机上,优化集合通信,避免了节点间的多次数据传输,减少了需要在网络上传输的数据量。因此,SHARP可以极大的提升加速计算的性能,基于MPI应用,比如AI,机器学习等等。

poYBAGOquKaAD4aeAAF3IY8ugKo882.png

10.支持多种网络拓扑

InfiniBand网络可以支持非常多的topo,比如:

Fat Tree

Torus

Dragonfly+

Hypercube

HyperX

支持不同的网络topo,从而满足不同的需求,比如:

易于网络扩展

降低TCO

最大化阻塞比

最小化延迟

最大化传输距离

pYYBAGOquKiAHp2SAAFdgVAqpw0740.png

Infiniband凭借着无与伦比的技术优势,极大简化了高性能网络架构,并降低了多级架构层次造成的延时,为关键计算节点接入带宽的平滑升级提供有力支撑。InfiniBand 网络凭借其极致的性能,不断创新的技术架构,在更低功耗、更少硬件设备的前提下帮助用户实现了业务性能的最大化,其进入越来越多的使用场景自是大势所趋。

纳多德是NVIDIA网络产品的Elite Partner,携手NVIDIA实现光连接+网络产品与解决方案的强强联合,尤其是在InfiniBand高性能网络建设与应用加速方面拥有深刻的业务理解和丰富的项目实施经验,可根据用户不同的应用场景,提供最优的InfiniBand高性能交换机+智能网卡+AOC/DAC/光模块产品组合方案,为数据中心、高性能计算、边缘计算、人工智能等应用场景提供更具优势与价值的光网络产品和整体解决方案,以低成本和出色的性能,大幅提高客户业务加速能力。

审核编辑黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • InfiniBand
    +关注

    关注

    1

    文章

    29

    浏览量

    9196
收藏 人收藏

    评论

    相关推荐

    敦泰荣获车载显示年度十大知名品牌

    由亚洲新能源汽车网发起的“2024中国智能座舱行业十大品牌”评选活动在中国汽车重镇——山城重庆正式揭晓结果。敦泰成功荣获“车载显示年度十大知名品牌”荣誉表彰。
    的头像 发表于 12-16 10:19 157次阅读

    全国5G新基建智慧灯杆建设十大代表性案例

    全国5G新基建智慧灯杆建设十大代表性案例
    的头像 发表于 11-07 12:50 605次阅读
    全国5G新基建智慧灯杆建设<b class='flag-5'>十大</b>代表性案例

    选择精科睿进行 PCBA 代工代料有以下十大理由

    选择精科睿进行 PCBA 代工代料有以下十大理由:
    的头像 发表于 11-06 10:21 188次阅读

    InfiniBand网络内计算的关键技术和应用

    InfiniBand在高性能计算(HPC)和人工智能(AI)应用中发挥着关键作用,体现在它提供了高速、低延迟的网络通信能力,以支持大规模数据传输和复杂计算任务。而InfiniBand的重要性还延伸至
    的头像 发表于 10-23 11:33 345次阅读

    InfiniBand与以太网的对比分析

    InfiniBand作为一种先进的内网计算平台,已成为驱动高性能计算(HPC)、人工智能(AI)以及超大规模云基础设施演进的核心力量,其展现出无可比拟的性能优势。专为满足服务器级连接需求而设
    的头像 发表于 10-23 11:23 494次阅读
    <b class='flag-5'>InfiniBand</b>与以太网的对比分析

    “智能网联汽车全球十大发展突破”在京发布

    “智能网联汽车全球十大发展突破”是从过去5-10年的代表性成果中,评选出在政策法规、市场应用、技术创新等方面最具标志性的项发展突破。10月17日,2024世界智能网联汽车大会(WICV2024
    的头像 发表于 10-19 08:08 340次阅读
    “智能网联汽车全球<b class='flag-5'>十大</b>发展突破”在京发布

    中国信通院发布“2024云计算十大关键词”

    7月23日,由中国通信标准化协会主办,中国信息通信研究院(简称“中国信通院”)承办的“2024可信云大会”在京召开。大会上,中国信通院正式发布“2024云计算十大关键词”,中国信通院云计算与大数
    的头像 发表于 08-02 08:28 626次阅读
    中国信通院发布“2024云计算<b class='flag-5'>十大</b>关键词”

    AI浪潮下的十大消费者新趋势

    人工智能已经风靡全球,当我们沉浸在AI技术为办公与生活带来的各种便利时,一些人也会质疑:AI 真的能为我们描绘出更美好的未来画卷吗? AI 赋能的十大消费者趋势 爱立信消费者实验室的最新报告
    发表于 06-05 10:30 365次阅读

    深入探索InfiniBand网络、HDR与IB技术

    InfiniBand和以太网之间的延迟对比可以分为两个主要组成部分。首先,在交换机层面上,以太网交换机在网络传输模型中作为第2层设备运行,通常采用MAC表查找寻址和存储转发机制(某些产品可能采用InfiniBand的直通技术)。
    发表于 04-19 11:01 1627次阅读
    深入探索<b class='flag-5'>InfiniBand</b>网络、HDR与IB技术

    台积电重回全球十大上市公司

    台积电重回全球十大上市公司 人工智能相关企业持续被资金关注,在AI需求旺盛的带动下台积电股价水涨船高,台积电重回全球十大上市公司;这是台积电2020年以来首次重返全球前十大上市公司之列。 台积电长期
    的头像 发表于 03-12 17:00 1127次阅读

    睿创微8微米荣获“2023年度山东十大科技创新成果”

    近日,在烟台召开的两院院士评选“2023年中国/世界十大科技进展新闻”发布会上,公布了“2023年度山东省十大科技创新成果”榜单。其中,睿创微凭借其研发的8微米非制冷红外热成像模组,荣获榜单之首,填补了世界空白。
    的头像 发表于 01-25 16:27 704次阅读

    华为发布2024智能光伏十大趋势

    华为以“持续创新,质胜未来,加速光伏成为主力能源”为主题,举办2024智能光伏十大趋势发布会。
    的头像 发表于 01-25 11:17 721次阅读

    睿创微8微米荣获“2023年度山东十大科技创新成果”

    1月11日,两院院士评选“2023年中国/世界十大科技进展新闻”发布会在烟台召开,会上公布“2023年度山东省十大科技创新成果”榜单。
    的头像 发表于 01-16 09:48 544次阅读
    睿创微<b class='flag-5'>纳</b>8微米荣获“2023年度山东<b class='flag-5'>十大</b>科技创新成果”

    2023年度十大科技名词

    12月26日,“2023年度十大科技名词”在京发布。“大语言模型、生成式人工智能、量子计算、脑机接口、数据要素、智慧城市、碳足迹、柔性制造、再生稻、可控核聚变”入选。个最具影响力和代表性的科技名词
    的头像 发表于 01-03 08:27 617次阅读
    2023年度<b class='flag-5'>十大</b>科技名词

    新一代MES十大核心要素

    电子发烧友网站提供《新一代MES十大核心要素.docx》资料免费下载
    发表于 12-29 11:14 0次下载