大模型训练和部署的关键技术-电子发烧友网

电子发烧友网报道（文/李弯弯）ChatGPT的出现让大模型迅速出圈，事实上，在过去这些年中，模型规模在快速提升。数据显示，自2016年至今，模型大小每18个月增长40倍，自2019年到现在，更是每18个月增长340倍。

然而相比之下，硬件增长速度较慢，自2016年至今，GPU的性能增长每18个月1.7倍，模型大小和硬件增长的差距逐渐扩大。显存占用大、算力消费大、成本高昂等瓶颈严重阻碍AIGC行业的快速发展。在此背景下，潞晨科技创始人尤洋认为，分布式训练势在必行。

图：潞晨科技创始人尤洋演讲

基础大模型结构为模型训练提供了基础架构

其一、Google首创的Transformer大模型，是现在所有大模型最基础的架构。现在Transformer已经成为除了MLP、CNN、RNN以外第四种最重要的深度学习算法架构。

其二、Google发布的首个预大模型BERT，从而引爆了预练大横型的潮流和的势，BERT强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言横型进行浅层拼接的方法进行预认训练，而是采用新的masked language model(MLM)，以致能生成深度的双向语言表征。

其三、ViT Google提出的首个使用Transformert的视觉大模型，ViT作为视觉转换器的使用，而不是CNN威混合方法来执行图像任务，作者假设进一步的预认训练可以提高性能，因为与其他现有技术模型相比，ViT具有相对可扩展性。

其四、Google将Transformer中的Feedforward Network(FFN)层替换成了MoE层，并且将MoE层和数据并行巧妙地结合起来，在数据并行训练时，模型在训练集群中已经被复制了若干份，通过在多路数据并行中引入Al-to-Al通信来实现MoE的功能。

在这些基础大模型结构之上，过去这些年，在大模型的发展历程中，出现了几个具有里程碑意义性的大模型包括GPT-3、T5、Swin Transformer、Switch Transformer。

GPT-3：OpenAI发布的首个百亿规模的大模型，应该非常具有开创性意义，现在的大模型都是对标GPT-3，GPT-3依旧延续自己的单向语言模型认训练方式，只不过这次把模型尺寸增大到了1750亿，并且使用45TB数据进行训练。

T5（Text-To-Text Transfer Transformer）：Google T5将所有NLP任务都转化成Text-to-Text(文本到文本)任务。它最重要作用给整个NLP预训型领城提供了一个通用框架，把所有任务都转化成一种形式。

Swin Transformer：微软亚研提出的Swin Transformer的新型视觉Transformer，它可以用作计算机视的通用backbone。在个领域之同的差异，例如视觉实体尺度的巨大差异以及与文字中的单词相比，图像中像素的高分率，带来了使Transformer从语言适应视觉方面的挑战。

超过万亿规模的稀疏大模型Switch Transformer：能够训练包含超过一万亿个参数的语言模型的技术，直接将参数量从GPT-3的1750亿拉高到1.6万亿，其速度是Google以前开发的语言模型T5-XXL的4倍。

另外，更具里程碑意义的大模型，在Pathways上实现的大预言模型PaLM。

分布式框架Pathways：Pathways的很多重要思想来源于现有系统，包括用于表达和执行TPU计算的XLA、用于表征和执行分布式CPU计算的TensorFlow图和执行器、基于Python 编程框架的JAX以及TensorFlowAPL，通过有效地使用这些模块，Pathways不需要对现有横型进行很多改动就能运行。

PaLM模型：PaLM吸引人眼球的是该模型具有5400亿参数以及果用新一代AI框架Pathways训练。模型结构也给出了很多方面优化，这些技术优化工作汲取了现有突出的研究成果，具体包括SwiGLU激活函数代替ReLU、层并行技术(Parallel Layers)、多查询注意力(Multi-Query Attention)，旋转位置编码(RoPE)、共享输入和输出词嵌入、去掉偏置参数(No Biases)等。

PaLM模型也是通过堆叠Transformer中的Decoder部分而成，该模型具有5400亿参数以及采用新一代AI框架Pathways训练。

大规模分布式训练当前主要技术路线

大规模分布式训练当前主要技术路线——并行训练技术。分布式训练并行技术即通过在训练过程中使用GPU集群（多机多卡）来提高神经网络的训练速度。

数据并行：相同的设置和模型被复制多份，每份每次都被馈送不同的一份数据，处理是并行完成的，所有份在每个训练步结束时同步。

张量并行：每个张量都被分成多个块，因此张量的每个分片都位于其指定的GPU上，在处理过程中，每个分片在不同的GPU上分别并行处理，结果在步骤结束时同步。

流水线并行：模型在多个GPU上垂直（即按量）拆分，因此只有一个或多个模型层放置在单个GPU上，每个GPU并行处理流水线的不同阶段，并处理batch的一部分数据。

潞晨科技成立于2021年，是一家致力于“解放AI生产力”的全球性公司。主要业务是通过打造分布式AI开发和部署平台，帮助企业降低大模型的落地成本，提升训练、推理效率。

潞晨开源的智能系统架构Colossal-AI技术，有两大特性：一是最小化部署成本，Colossal-AI 可以显著提高大规模AI模型训练和部署的效率。仅需在笔记本电脑上写一个简单的源代码，Colossal-AI 便可自动部署到云端和超级计算机上。

通常训练大模型 (如GPT-3) 需要 100 多个GPU，而使用Colossal-AI仅需一半的计算资源。即使在低端硬件条件下，Colossal-AI也可以训练2-3倍的大模型。

二是最大化计算效率，在并行计算技术支持下，Colossal-AI在硬件上训练AI模型，性能显著提高。潞晨开源的目标是提升训练AI大模型速度10倍以上。

小结

如今，全球众多科技企业都在研究大模型，然而大模型的训练和部署对硬件也有极高的要求，高昂的硬件需求和训练成本是当前亟待解决的问题。可见，除了OpenAI、谷歌、百度、阿里等致力于大模型研究企业，以及英伟达等提供硬件的企业之外，潞晨科技这类提供微调，致力于提升大模型训练和部署效率、降低成本的企业，也值得关注。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

大模型

大模型

+关注

关注
2

文章
2762

浏览量
3413

用PaddleNLP在4060单卡上实践大模型预训练技术

手把手教您如何在单张消费级显卡上，利用PaddleNLP实践OpenAI的GPT-2模型的预训练。GPT-2的预训练关键技术与流程与GPT-4等大参数

发表于 02-19 16:10 •448次阅读

用PaddleNLP在4060单卡上实践大<b class='flag-5'>模型</b>预<b class='flag-5'>训练</b><b class='flag-5'>技术</b>

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

今天学习<基于大模型的RAG应用开发与优化>这本书。大模型微调是深度学习领域中的一项关键技术，它指的是在已经预训练好的大型深度学习模型

发表于 01-14 16:51

AI模型部署边缘设备的奇妙之旅：目标检测模型

网络（DenseNet）等创新设计都是为了克服深层网络训练中的挑战而提出的。 3 边缘端设备部署在边缘端设备部署目标检测模型，特别是像PP-PicoDet这样轻量级且高效的

发表于 12-19 14:33

云计算HPC软件关键技术

云计算HPC软件关键技术涉及系统架构、处理器技术、操作系统、计算加速、网络技术以及软件优化等多个方面。下面，AI部落小编带您探讨云计算HPC软件的关键技术。

发表于 12-18 11:23 •218次阅读

AI模型部署边缘设备的奇妙之旅：如何实现手写数字识别

较大的准确率损失。 2.4.2 量化（Quantization）模型量化是深度学习模型优化的一种关键技术，旨在通过减少模型参数和激活值的数值精度来降低

发表于 12-06 17:20

如何训练自己的LLM模型

训练自己的大型语言模型（LLM）是一个复杂且资源密集的过程，涉及到大量的数据、计算资源和专业知识。以下是训练LLM模型的一般步骤，以及一些关键

发表于 11-08 09:30 •1068次阅读

基于Pytorch训练并部署ONNX模型在TDA4应用笔记

电子发烧友网站提供《基于Pytorch训练并部署ONNX模型在TDA4应用笔记.pdf》资料免费下载

发表于 09-11 09:24 •0次下载

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键

发表于 07-24 11:38 •1269次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •680次阅读

人脸识别模型训练流程

人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型的训练流程，包括数据准备、

发表于 07-04 09:19 •1284次阅读

人脸识别模型训练是什么意思

人脸识别模型训练是指通过大量的人脸数据，使用机器学习或深度学习算法，训练出一个能够识别和分类人脸的模型。这个模型可以应用于各种场景，如安防监

发表于 07-04 09:16 •843次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型，本质上是通过优化算法调整

发表于 07-01 16:13 •1756次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

函数，位置编码以及其他关键模块。这些模块和设计选型都是大语言模型在处理各种自然语言处理任务时的基础，影响模型的学习能力，泛化性和运行效率。大语言模型通过最常用的

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

全面剖析大语言模型的核心技术与基础知识。首先，概述自然语言的基本表示，这是理解大语言模型技术的前提。接着，详细介绍自然语言处理预训练的经典

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transf

发表于 05-05 10:56

搜索历史

大模型训练和部署的关键技术

评论

用PaddleNLP在4060单卡上实践大模型预训练技术

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

AI模型部署边缘设备的奇妙之旅：目标检测模型

云计算HPC软件关键技术

AI模型部署边缘设备的奇妙之旅：如何实现手写数字识别

如何训练自己的LLM模型

基于Pytorch训练并部署ONNX模型在TDA4应用笔记

LLM大模型推理加速的关键技术

大语言模型的预训练

人脸识别模型训练流程

人脸识别模型训练是什么意思

深度学习模型训练过程详解

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述