0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

纳多德端到端IB解决方案

维维为 来源:维维为 作者:维维为 2023-04-03 17:33 次阅读

在 ChatGPT 引爆科技领域之后,人们一直在讨论 AI「下一步」的发展会是什么,很多学者都提到了多模态,我们并没有等太久。近期,OpenAI 发布了多模态预训练大模型 GPT-4,GPT-4 实现了以下几个方面的飞跃式提升:强大的识图能力、文字输入限制提升至 2.5 万字、回答准确性显著提高、能够生成歌词、创意文本,实现风格变化。

如此高效的迭代,离不开人工智能大规模模型训练,需要大量的计算资源和高速的数据传输网络。其中,端到端IB(InfiniBand)网络是一种高性能计算网络,特别适合用于高性能计算和人工智能模型训练。本文将介绍什么是AIGC模型训练,为什么需要端到端IB网络以及如何使用ChatGPT模型进行AIGC训练。

AIGC是什么?

AIGC 即 AI Generated Content,是指人工智能自动生成内容,可用于绘画、写作、视频等多种类型的内容创作。2022年AIGC高速发展,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。以最近爆火的聊天机器人ChatGPT为例,这款机器人既会写论文,也能创作小说,还可编代码,上线仅2个月,月活用户达1亿。因为出乎意料的“聪明”,AIGC被认为是“科技行业的下一个颠覆者”“内容生产力的一次重大革命”。

pYYBAGQqnSOATeN_AAI-B-SAUYo855.png

大型语言模型(LLM)和ChatGPT

大型语言模型(Large Language Model)是一种能够自动学习并理解自然语言的人工智能技术。它通常基于深度学习算法,通过对大量文本数据的学习来获取语言知识,并能够自动生成自然语言文本,如对话、文章等。

ChatGPT是一种基于大型语言模型的聊天机器人,它采用了OpenAI开发的GPT(Generative Pre-trained Transformer)模型,通过对大量文本数据的预训练和微调,能够生成富有语言表达力的自然语言文本,并实现与用户的交互。

因此,可以说ChatGPT是一种基于大型语言模型技术的聊天机器人,它利用了大型语言模型的强大语言理解和生成能力,从而能够在对话中进行自然语言文本的生成和理解。

随着深度学习技术的发展,大型语言模型的能力和规模不断提升。最初的语言模型(如N-gram模型)只能考虑有限的上下文信息,而现代的大型语言模型(如BERT、GPT-3等)能够考虑更长的上下文信息,并且具有更强的泛化能力和生成能力。

大型语言模型通常采用深度神经网络进行训练,如循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)和变压器网络(Transformer)等。在训练中,模型利用大规模的文本数据集,采用无监督或半监督的方式进行训练。例如,BERT模型通过预测掩码、下一个句子等任务来训练,而GPT-3则采用了大规模的自监督学习方式。

大型语言模型在自然语言处理领域有广泛的应用,例如机器翻译、自然语言生成、问答系统、文本分类、情感分析等。

当前训练LLM的瓶颈在哪里?

在训练大型语言模型时,需要高速、可靠的网络来传输大量的数据。例如OpenAI发布了第一版GPT模型(GPT-1),其模型规模为1.17亿个参数。之后,OpenAI相继发布了GPT-2和GPT-3等更大的模型,分别拥有1.5亿和1.75万亿个参数。如此大的参数在单机训练是完全不可能的,需要高度依赖GPU计算集群,目前的瓶颈在于如何解决训练集群中各节点之间高效通信的问题。

pYYBAGQqnSiAD04zAAVGuyLWDSU023.png

目前比较常用的GPU通信算法就是Ring-Allreduce。其基本思想就是让GPU形成一个环,让数据在环内流动。环中的GPU都被安排在一个逻辑中,每个GPU有一个左邻和一个右邻,它只会向它的右邻居发送数据,并从它的左邻居接收数据。

该算法分两个步骤进行:首先是scatter-reduce,然后是allgather。在scatter-reduce步骤中,GPU将交换数据,使每个GPU可得到最终结果的一个块。在allgather步骤中,GPU将交换这些块,以便所有GPU得到完整的最终结果。

wKgaomQqnvOAYgBoAAjsdhHIBew206.png

在早期,单机内部没有NVLink,网络上没有RDMA,带宽相对较低,单机分布式和多机分布式在带宽上没太大差别,所以建一个大环即可。

但是现在我们单机内部有了NVLink,在使用同样的方法就不合适了。因为网络的带宽是远低于NVLink,如果再用一个大环,那会导致NVLink的高带宽被严重拉低到网络的水平。其次,现在是具备多网卡的环境,如果只用一个环也无法充分利用多网卡优势。

因此,在这样的场景下建议采用两级环:首先利用NVLink高带宽优势在单机内部的GPU之间完成数据同步;然后多机之间的GPU利用多网卡建立多个环,对不同分段数据进行同步;最后单机内部的GPU再同步一次,最终完成全部GPU的数据同步,在这里就不得不提到NCCL。

wKgaomQqnvOAK-GTAAsI5a5bwVo275.png

NVIDIA集体通信库(NCCL)实现了针对NVIDIA GPU和网络优化的多GPU和多节点通信原语。

pYYBAGQqnTeASMmYAAJQ08MdpPU452.png

1GPU->multi-GPU multi node

NCCL提供全收集、全减、广播、减少、减少散射以及点对点发送和接收等例程,这些例程经过优化,通过节点内和NVIDIA Mellanox网络通过PCIe和NVLink高速互连实现高带宽和低延迟。

为什么要使用端到端IB网络?

以太网是一种广泛使用的网络协议,但其传输速率和延迟无法满足大型模型训练的需求。相比之下,端到端IB(InfiniBand)网络是一种高性能计算网络,能够提供高达 400 Gbps 的传输速率和微秒级别的延迟,远高于以太网的性能。这使得IB网络成为大型模型训练的首选网络技术。

此外,端到端IB网络还支持数据冗余和纠错机制,能够保证数据传输的可靠性。这在大型模型训练中尤为重要,因为在处理如此多的数据时,数据传输错误或数据丢失可能会导致训练过程中断甚至失败。

随着网络节点数目的急剧增加和计算能力不断上升,高性能计算消除性能瓶颈和改进系统管理变得比以往更加重要。InfiniBand被认为是可以提升当前I/O架构性能瓶颈的一种极具潜力的I/O技术,如图所示。InfiniBand是一种普及的、低延迟的、高带宽的互连通信协议,处理开销很低,非常适合在单个连接上承载多种流量类型(集群、通信、存储和管理)。1999年,IBTA (InfiniBand Trade Association)制定了InfiniBand相关标准,在InfiniBand™中规范定义了用于互连服务器、通信基础设施设备、存储和嵌入式系统的输入/输出体系结构。InfiniBand是一项成熟的、经过现场验证的技术,被广泛应用于高性能计算集群中。

wKgZomQqnvOAI2avAAxfOwTHfek946.png

InfiniBand互连架构图

InfiniBand互联协议中规定,每个端节点必须有一个主机通道适配器(HCA)来设置和维护与主机设备的链接,交换机包含多个端口,并将数据包从一个端口转发到另一个端口,完成在子网内传输数据的功能。子网管理器(Subnet Manager, SM)用于配置其本地子网并确保其持续运行,借助子网管理器数据包(Subnet Manager Packet, SMP)和每个InfiniBand设备上的子网管理代理(Subnet Manager Agent, SMA),子网管理器发现并初始化网络,为所有设备分配唯一标识符,确定MTU(Maximum Transmission Unit,最小传输单元),并根据选定的路由算法生成交换机路由表。SM还定期对子网进行光扫描,以检测任何拓扑变化,并相应地配置网络。与其他网络通信协议相比,InfiniBand网络提供了更高的带宽、更低的延迟和更强的可扩展性。此外,由于InfiniBand提供了基于credit的流控制(其中发送方节点发送的数据不会超过链路另一端的接收缓冲区公布的credit数量),传输层不需要像TCP窗口算法那样的丢包机制来确定最佳的正在传输的数据包数量,这使得InfiniBand网络能够以极低的延迟和极低的CPU使用率为应用程序提供极高的数据传输速率。InfiniBand使用RDMA技术(Remote Direct Memory Access,远程直接内存访问)将数据从通道一端传输到另一端,RDMA是一种通过网络在应用程序之间直接传输数据的协议,无需操作系统的参与,同时消耗双方极低的CPU资源(零拷贝传输),一端的应用程序只需直接从内存中读取消息,消息就已成功传输,减少的CPU开销增加了网络快速传输数据的能力,并允许应用程序更快地接收数据。

纳多德端到端IB网络解决方案

纳多德基于对高速率网络发展趋势的理解,和丰富的HPC、AI项目实施经验,提供基于NVIDIA Quantum-2交换机、 ConnectX InfiniBand 智能网卡和灵活的400Gb/s InfiniBand端到端解决方案,在降低成本和复杂性的同时在高性能计算 (HPC)、AI 和超大规模云基础设施中带来超强性能。

poYBAGQqnUGAFJnvAAPrEaLr3ew716.png

纳多德数据中心IB网络解决方案

交换机

更快的服务器、高性能存储和日益复杂的计算应用正在将数据带宽要求推向新的高度。NVIDIA Mellanox QM9700 交换机提供具有极低的延迟,NVIDIA Quantum-2 采用第七代 NVIDIA InfiniBand 架构,可为 AI 开发者和科学研究人员提供超强网络性能和丰富功能,帮助他们解决充满挑战性的问题。NVIDIA Quantum-2 通过软件定义网络、网络计算、性能隔离、高级加速引擎、远程直接内存访问 (RDMA) 以及高达 400 Gb/s 的超快的速度,为先进的超级计算数据中心提供助力。

智能网卡

纳多德在网卡侧提供NVIDIA ConnectX SmartNIC智能网卡,NVIDIA ConnectX InfiniBand 智能网卡支持更快的速度和创新的网络计算技术,实现了超强性能和可扩展性。NVIDIA ConnectX 降低了每次操作的成本,从而可为高性能计算 (HPC)、机器学习、高性能存储及数据库业务和低延迟嵌入式等应用提高投资回报率。来自 NVIDIA Quantum-2 InfiniBand 架构的 ConnectX-7 智能网卡(HCA)可提供超高的网络性能,用于处理极具挑战性的工作负载。ConnectX-7 支持超低时延、400Gb/s 吞吐量和创新的 NVIDIA 网络计算加速引擎,实现额外加速,为超级计算机、人工智能和超大规模云数据中心提供所需的高可扩展性和功能丰富的技术。

光模块

纳多德提供灵活的NVIDIA 400Gb/s InfiniBand光连接方案,包括使用单模和多模收发器、MPO光纤跳线、有源铜缆(ACC)和无源铜缆(DAC),用以满足搭建各种网络拓扑的需要。

>配有带鳍设计的 OSFP 连接器的双端口收发器适用于风冷固定配置交换机,而配有扁平式OSFP 连接器的双端口收发器则适用于液冷模块化交换机和 HCA 中。

>在交换机互连上,可选择采用全新OSFP封装 2XNDR(800Gbps) 光模块进行两台 QM9700交换机的互连,带鳍的设计,可以大大提高光模块散热性。

>交换机和HCA的互联上,交换机端采用OSFP封装2xNDR(800Gbps)带鳍光模块,网卡端采用带有扁平OSFP 400Gbps光模块,MPO光纤跳线可提供3-150米,一对二分光器光纤可提供3-50米。

>交换机到HCA的连接也提供DAC(最长1.5米)或者ACC(最长3米)的解决方案,一对二式分接线缆可用于交换机的一个OSFP端口(配备两个400Gb/s InfiniBand端口)和两个独立的400Gb/s HCA。一分四式分接线缆可用于连接交换机的一个OSFP交换机端口和四个200Gb/s HCA。

纳多德是光网络解决方案的领先提供商,是NVIDIA网络产品的Elite Partner,携手NVIDIA实现光连接+网络产品与解决方案的强强联合,尤其是在InfiniBand高性能网络建设与应用加速方面拥有深刻的业务理解和丰富的项目实施经验,可根据用户不同的应用场景,提供最优的InfiniBand高性能交换机+智能网卡+AOC/DAC/光模块产品组合方案,为数据中心、高性能计算、边缘计算、人工智能等应用场景提供更具优势与价值的光网络产品和整体解决方案,以低成本和出色的性能,大幅提高客户业务加速能力。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5002

    浏览量

    103232
  • 光模块
    +关注

    关注

    77

    文章

    1270

    浏览量

    59073
  • ChatGPT
    +关注

    关注

    29

    文章

    1563

    浏览量

    7796
  • AIGC
    +关注

    关注

    1

    文章

    363

    浏览量

    1558
收藏 人收藏

    评论

    相关推荐

    恩智浦完整的Matter解决方案

    恩智浦为打造Matter设备,提供了完整的解决方案,从连接和安全解决方案到处理器和软件,应有尽有,为Matter标准的规模化商用提供有
    的头像 发表于 08-26 18:04 2594次阅读
    恩智浦完整的Matter<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解决方案</b>

    华为解决方案

    华为整合了路由器和光传输领域的领先优势,推出业界领先的100G解决方案。100GE线卡和端口率先在长途骨干获得应用,并逐步延伸至骨干边缘及城域网络。
    发表于 12-09 15:32 1932次阅读

    集成数据网络和段段监测解决方案

    EXFO Inc和RAD数据通信公司今天宣布推出一种新的集成解决方案,用于数据网络的监测。该解决方案可将显著缩短网络部署时间——从数月
    发表于 05-29 17:06 1152次阅读

    物联网解决方案

    英特尔打造核心技术物联网解决方案
    发表于 12-28 18:12 0次下载

    Airvana宣布全球首个LTE毫微微蜂窝解决方案

    Technology Americas公司合作,成功演示了全球首个LTE毫微微蜂窝解决方案。现场演示是2011年9月为一家一线移动服务运营商进行的。
    发表于 12-09 05:43 1364次阅读

    USB Type-C解决方案的应用

    恩智浦的USB Type-C解决方案可轻松集成客户设计中,且包含AC/DC电源转换器、PD PHY和CC逻辑控制器、直接充电、信号转
    的头像 发表于 01-08 07:06 4653次阅读
    USB Type-C<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解决方案</b>的应用

    首个基于APP应用的5G SA切片解决方案成功实现

    近日,中国联通携手中兴通讯、腾讯在广东打造业内首个基于APP应用级的5G SA网络切片,构建包含5G SA网络、切片运营平台、5G终端和手机APP应用等
    发表于 08-11 09:58 950次阅读

    中兴通讯传输解决方案实现承载业务“光速直达”

      随着5G新业务的发展,接入业务的带宽需求飞速增长,中兴通讯可以提供的传输解决方案,构建一个涵盖城域接入层、城域汇聚层、城域核心层以及长途干线层的“
    的头像 发表于 10-09 14:15 2955次阅读
    中兴通讯<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>传输<b class='flag-5'>解决方案</b>实现承载业务“光速直达”

    的IO链接解决方案

    的IO链接解决方案
    发表于 05-10 10:43 1次下载
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的IO链接<b class='flag-5'>解决方案</b>

    松下帮助高校提供解决方案

    在欧洲,顶尖的大学不约而同地选择了松下专业技术来帮助他们提供优质的学习体验。松下的技术以其卓越的质量和可靠性而闻名,拥有提供解决方案的能力——从硬、软件安装到持续的运维支持。
    的头像 发表于 03-10 16:42 1683次阅读

    是德科技发布PCIe5.0/6.0测试解决方案

    2022年4月14日,北京――是德科技(NYSE:KEYS)发布新款的 PCIe5.0/6.0 测试解决方案,使工程师能够对 PCIe 前沿科技设计进行仿真、研发、评估、验证和一
    的头像 发表于 04-14 14:39 1629次阅读

    NVMe解决方案简介

    电子发烧友网站提供《NVMe解决方案简介.pdf》资料免费下载
    发表于 08-17 09:59 0次下载
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>NVMe<b class='flag-5'>解决方案</b>简介

    语音识别技术:的挑战与解决方案

    探讨语音识别技术的挑战与解决方案。 二、
    的头像 发表于 10-18 17:06 1028次阅读

    华为IPv6+解决方案通过信通院IPv6+ 2.0 Advanced测试评估

    近日,华为IPv6+解决方案成功通过中国信息通信研究院(以下简称“信通院”)IPv6+ 2.0 Advanced测试评估,获得业界首张企业/行业网络
    的头像 发表于 05-17 10:00 866次阅读
    华为IPv6+<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>解决方案</b>通过信通院IPv6+ 2.0 Advanced测试评估

    Mobileye自动驾驶解决方案的深度解析

    自动驾驶技术正处于快速发展之中,各大科技公司和汽车制造商均在争相布局,试图在这个新兴领域占据一席之地。Mobileye作为全球自动驾驶技术的领军企业之一,凭借其独特的自动驾驶解决方案
    的头像 发表于 10-17 09:35 383次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>解决方案</b>的深度解析