AI大语言模型的原理、演进及算力测算专题报告-电子发烧友网

核心观点：

机器学习中模型及数据规模增加有利于提高深度神经网络性能。人工智能致力于研究能够模拟、延伸和扩展人类智能的理论方法及技术，并开发相关应用系统；其最终目标是使计算机能够模拟人的思维方式和行为。机器学习是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科，广泛应用于数据挖掘、计算机视觉、自然语言处理等领域。深度学习是机器学习的子集，主要由人工神经网络组成。与传统算法及中小型神经网络相比，大规模的神经网络及海量的数据支撑将有效提高深度神经网络的表现性能。

Transformer模型架构是现代大语言模型所采用的基础架构。Transformer模型是一种非串行的神经网络架构，最初被用于执行基于上下文的机器翻译任务。Transformer模型以Encoder-Decoder架构为基础，能够并行处理整个文本序列，同时引入“注意机制”（Attention），使其能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练，因此具有能够并行运算、关注上下文信息、表达能力强等优势。

Transformer模型以词嵌入向量叠加位置编码作为输入，使得输入序列具有位置上的关联信息。编码器（Encoder）由Self-Attention（自注意力层）和 Feed Forward Network（前馈网络）两个子层组成，Attention使得模型不仅关注当前位置的词语，同时能够关注上下文的词语。解码器（Decoder）通过Encoder-Decoder Attention层，用于解码时对于输入端编码信息的关注；利用掩码（Mask）机制，对序列中每一位置根据之前位置的输出结果循环解码得到当前位置的输出结果。

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习，从而实现文本生成的目的；在结构上仅采用Transformer架构的Decoder部分。自2018年6月OpenAI发布GPT-1模型以来，GPT模型迭代演进迅速。GPT-1核心思想是采用“预训练+微调”的半监督学习方法，服务于单序列文本的生成式任务；GPT-2在预训练阶段引入多任务学习机制，将多样化的自然语言处理任务全部转化为语言模型问题；GPT-3大幅增加了模型参数，更能有效利用上下文信息，性能得到跨越式提高；GPT-3.5引入人类反馈强化学习机制，通过使用人类反馈的数据集进行监督学习，能够使得模型输出与人类意图一致。

大语言模型的训练及推理应用对算力需求带来急剧提升。以GPT-3为例，GPT-3参数量达1750亿个，训练样本token数达3000亿个。考虑采用精度为32位的单精度浮点数数据来训练模型及进行谷歌级访问量推理，假设GPT-3模型每次训练时间要求在30天完成，对应GPT-3所需运算次数为3.15*10^23FLOPs，所需算力为121.528PFLOPS，以A100 PCle芯片为例，训练阶段需要新增A100 GPU芯片1558颗，价值量约2337万美元；对应DGX A100服务器195台，价值量约3880.5万美元。假设推理阶段按谷歌每日搜索量35亿次进行估计，则每日GPT-3需推理token数达7.9万亿个，所需运算次数为4.76*10^24FLOPs，所需算力为 55EFLOPs，则推理阶段需要新增A100 GPU芯片70.6万颗，价值量约105.95亿美元；对应DGX A100服务器8.8万台，价值量约175.12亿美元。

01、人工智能、机器学习与神经网络简介

机器学习是实现人工智能的途径之一

人工智能（Artificial Intelligence，AI）是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能的最终目标是使计算机能够模拟人的思维方式和行为。机器学习（Machine Learning，ML）是实现人工智能的一种途径，是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科。机器学习包括数据、模型、算法三要素。从实践上来看，机器学习是在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行“自学”（训练模型），使人工智能系统获得了归纳推理和决策能力。机器学习作为一套数据驱动方法，已广泛应用于数据挖掘、自然语言处理、机器视觉、搜索引擎、医学诊断、生物特征识别、DNA序列测序、证券市场分析等领域。

模型及数据规模增加有利于提高深度神经网络性能

深度学习（Deep Learning，DL）是机器学习的子集，由人工神经网络（ANN）组成。深度学习模仿人脑中存在的相似结构，其学习是通过相互关联的“神经元”的深层的、多层的“网络”来进行的。典型的神经网络从结构上可以分为三层：输入层、隐藏层、输出层。其中，输入层（input layer）是指输入特征向量；隐藏层（hidden layer）是指抽象的非线性中间层；输出层（output layer）是指输出预测值。深层神经网络即包含更多隐藏层的神经网络。相比于传统机器学习模型，深度学习神经网络更能在海量数据上发挥作用。若希望获得更好的性能，不仅需要训练一个规模足够大的神经网络（即带有许多隐藏层的神经网络，及许多参数及相关性），同时也需要海量的数据支撑。数据的规模及神经网络的计算性能，需要有强大的算力作为支撑。

CNN和RNN是常见的神经网络模型

传统常见的神经网络模型包括卷积神经网络（CNN）和循环神经网络（RNN）等。其中，卷积神经网络（Convolutional Neural Network， CNN）多用于计算机视觉、自动驾驶、人脸识别、虚拟现实、医学领域、人机交互、智能安防等图像应用；相比于标准神经网络，CNN能够更好地适应高纬度的输入数据，卷积设计有效减少了模型的参数数量。循环神经网络（Recurrent Neural Network，RNN）常用于处理序列数据，获取数据中的时间依赖性。由于语言都是逐个出现的，同时语言是时序前后相互关联的数据，因此语言作为最自然表达出来的序列数据，适合应用RNN进行语音识别、情感分类、机器翻译、语言生成、命名实体识别等应用。

循环神经网络（RNN）曾是自然语言处理的首选解决方案。RNN能够在处理单词序列时，将处理第一个词的结果反馈到处理下一个词的层，使得模型能够跟踪整个句子而非单个单词。但RNN存在缺点：由于这种串行结构，RNN无法对于长序列文本进行有效处理，甚至可能当初始单词过远时“遗忘”相关信息。

02、Transformer模型结构分析

Transformer模型以Encoder-Decoder架构为基础

《Attention is all your need》 by OpenAI 。作为与传统的CNN、RNN不同的深度学习模型架构，Transformer模型最初是被用于基于上下文的机器翻译模型。由于Transformer模型非串行结构，能够并行处理整个序列；同时引入“注意机制”（attention），能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练。Transformer以Encoder-Decoder架构为基础。其中，编码组件由多层编码器（Encoder）组成。解码组件也是由相同层数的解码器（Decoder）组成。Encoder用于提取源端语言的语义特征，而用Decoder提取目标端语言的语义特征，并生成相对应的译文。Transformer模型具有能够并行运算、关注上下文信息、表达能力强等优势。

Transformer模型结构分析——词嵌入（Embedding）

词嵌入是NLP最基础的概念之一，表示来自词汇表的单词或者短语被映射成实数向量。最早的词嵌入模型是word2vec等神经网络模型，属于静态词嵌入（不关注上下文）。例如大模型诞生前常用的RNN模型所用的输入便是预训练好的词嵌入。词向量能够将语义信息与空间向量关联起来（例如经典的词类比例子：king、queen、man、woman对应词向量的关系）。词嵌入产生要素及步骤：Vocabulary：所有的token组成集合。词向量表：token与词向量的一一对应关系。词向量可以由预训练产生，也可以是模型参数。查表：输入的token都对应一个固定维度的浮点数向量（词嵌入向量）。位置编码：表示序列中词的顺序，具体方法为为每个输入的词添加一个位置向量。根据位置编码对应计算公式，pos表示位置，i表示维度。位置编码能够让模型学习到token之间的相对位置关系。

Transformer模型结构分析——Encoder

编码组件可由多层编码器（Encoder）组成，同样解码组件也由相同层数的解码器（Decoder）组成。一般来讲，对于中间层的输出向量，底层Encoder输出的表示浅层含义，顶层Encoder输出的表示深层含义。每个Encoder由两个子层组成：Self-Attention层（自注意力层）和 Feed Forward Network（FFN，前馈网络）组成。对于每一层Encoder，词嵌入向量输入会首先进入Self-Attention层，Encoder对词向量进行编码时，会对整句输入的上下文均进行Attention操作，从而关注并使用到输入句子的上下文的信息。Decoder端存在Cross-Attention层（Encoder-Decoder Attention层），用于解码时对输入部分的信息进行Attention关注。

经过Self-Attention层的输入进入前馈网络，前馈网络一般是全连接层网络（并经过非线性的激活函数，如ReLU函数）。全连接层是最基本的神经网络，每一个结点都与上一层的所有结点相连。ReLU函数：即修正线性单元（Rectified linear unit），又称线性整流函数，通常指以斜坡函数及其变种为代表的非线性函数。激活函数：为使神经网络具有拟合函数的能力而引入非线性；如不引入非线性，则无论多少层神经网络都相当于一个线性映射。下一个Encoder的输入是上一个Encoder的输出，以此类推。

Transformer模型结构分析——Multi-head Attention

Multi-head Attention即多头注意力机制，采用多组不同的线性变换对Q、K、V矩阵进行映射并分别计算Attention，再将不同的Attention结果拼接起来进行线性变换。Multi-head Attention本质是在参数总量保持不变的情况下，将Q、K、V映射到高维空间的不同子空间进行Attention计算，防止过拟合。

03、大规模语言模型算力需求测算（以GPT-3为例）

BERT和GPT是基于Transformer架构的两种大规模语言模型

构建语言模型（Language Model，LM）是自然语言处理（Natural Language Processing，NLP）中最基本和最重要的任务之一，自然语言处理基于Transformer架构衍生出了两种主流大语言模型（Large Language Model， LLM）——BERT和GPT。二者都是无监督预训练的大语言模型。BERT（Bidirectional Encoder Representations from Transformer）能够生成深度双向语言表征，是采用带有掩码（mask）的大语言模型，类似于完形填空，根据上下文预测空缺处的词语。结构上，BERT仅采用Transformer 架构的Encoder部分。

GPT（Generative Pre-training Transformer）是生成式预训练的单向语言模型。通过对大量语料数据进行无监督学习，从而实现文本生成的目的。结构上，GPT仅采用Transformer架构的Decoder部分。自2018年6月起OpenAI发布GPT-1模型以来，GPT更新换代持续提升模型及参数规模。随着OpenAI于2022年11月30 日发布ChatGPT引爆AI领域，海内外科技公司纷纷宣布发布大语言模型。用户爆发式增长对大语言模型的算力需求带来挑战。

GPT-1：预训练+微调的半监督学习模型

《Improving Language Understanding by Generative Pre-Training》 by OpenAI。GPT-1是生成式预训练模型，核心思想是“预训练+微调”的半监督学习方法，目标是服务于单序列文本的生成式任务。生成式：表示模型建模的是一段句子出现的概率，可以分解为基于语言序列前序已出现单词条件下后一单词出现的条件概率之乘积。四大常见应用：分类、蕴含、相似、选择，分类：每段文本具有对应标号，将文本按标号进行分类，蕴含：给出一段文本和假设，判断该段文本中是否蕴含该假设，相似：判断两段文本是否相似（用于搜索、查询、去重等），选择：对有多个选项的问题进行回答。

GPT-2：强调多任务的预训练模型

《Language Models are Unsupervised Multitask Learners》 by OpenAI，预训练+微调的范式只能对于特定自然语言处理任务（例如问答、机器翻译、阅读理解、提取摘要等）使用特定的数据集进行有监督学习，单一领域数据集缺乏对多种任务训练的普适性。GPT-2在预训练阶段便引入多任务学习机制，通过加入各种NLP 任务所需要的数据集，在尽可能多的领域和上下文中收集属于对应任务的自然语言。由此得到的GPT-2模型可以以zero-shot的方式被直接应用于下游任务，而无需进行有监督的精调。GPT-2将多样化的的NLP任务全部转化为语言模型问题。语言提供了一种灵活的方式来将任务，输入和输出全部指定为一段文本。对文本的生成式建模就是对特定任务进行有监督学习。

GPT-3：能够举一反三的大语言模型

《Language Models are Few-Shot Learners》 by OpenAI。相比GPT-2，GPT-3大幅增加了模型参数。GPT-3是具有1750亿个参数的自回归语言模型，更能有效利用上下文信息。对于特定的下游任务，GPT-3无需进行任何梯度更新或微调，仅需通过与模型交互并提供少量范例即可。特点：1、模型规模急剧增加（使得模型性能提升迅猛）；2、实现few-shot learning。in-context learning：对模型进行引导，使其明白应输出什么内容。Q：你喜欢吃苹果吗？A1：我喜欢吃。A2：苹果是什么？A3：今天天气真好。A4：Do you like eating apples? 采用prompt提示语：汉译英：你喜欢吃苹果吗？请回答：你喜欢吃苹果吗？

GPT-3模型对GPU与AI服务器需求展望

根据结论，1个参数量为1750亿个的GPT-3模型在训练阶段需要新增1558颗A100 GPU芯片，对应价值为2337万美元，需要195台 DGX A100服务器；在推理阶段需要新增70.6万颗A100 GPU芯片，对应价值为105.95亿美元，需要8.8万台DGX A100服务器。考虑一台DGX A100服务器售价19.9万美元，则在训练阶段DGX A100服务器价值量为3880.5万美元，推理阶段DGX A100服务器价值量为175.12亿美元。英伟达（Nvidia）是一家人工智能计算公司，其GPU产品和架构为科学计算、人工智能（AI）、数据科学、自动驾驶汽车（AV）、机器人、元宇宙和3D互联网应用创建平台。FY23英伟达收入为269.74亿美元。若按上述结论，GPT-3新增GPU价值达到英伟达公司FY23收入的39.4%。

据IDC数据，受益于全球经济的快速复苏，2021年用户对数据中心基础设施的投资持续上涨，全球服务器市场出货量为1353.9 万台。据TrendForce数据，截至2022年底预计搭载GPGPU（General Purpose GPU）的AI服务器年出货量占整体服务器比例近1%。若采用上述数据大致估算，GPT-3新增AI服务器数量达到2021年全球AI服务器数量的65.35%。

报告节选：

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4787

浏览量
101373
AI

AI

+关注

关注
87

文章
32029

浏览量
270926
语言模型

语言模型

+关注

关注
0

文章
547

浏览量
10373
机器学习

机器学习

+关注

关注
66

文章
8458

浏览量
133232

原文标题：AI大语言模型的原理、演进及算力测算专题报告

文章出处：【微信号：AIOT大数据，微信公众号：AIOT大数据】欢迎添加关注！文章转载请注明出处。

大模型遭遇算力墙,探索超级应用的发展路径

最近，开源中国 OSCHINA、Gitee 与 Gitee AI 全文如下：大模型撞上 “算力墙”，超级应用的探寻之路文 / 傅聪近日，大模

发表于 02-10 17:24 •111次阅读

从堆算力到用算力，宁畅用精装算力，助力产业打造智能化摩天大楼

算力

脑极体
发布于 :2025年01月22日 00:00:50

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

发表于 01-16 10:24 •162次阅读

企业AI算力租赁模式的好处

构建和维护一个高效、可扩展的AI算力基础设施，不仅需要巨额的初期投资，还涉及复杂的运维管理和持续的技术升级。而AI算

发表于 12-24 10:49 •416次阅读

5G-A家庭随身网络场景及关键技术专题报告发布

在2024年中国5G发展大会期间，5G-A技术与应用发展论坛在上海成功举办。华为云核心网产品线分组领域副总裁曹明荣代表IMT-2020（5G）推进组发布了《家庭随身网络场景及关键技术专题报告》，介绍了5G-A家庭随身网络的应用场景和关键技术，为打造随时随地全互联的智慧生活奠定了技术基础。

发表于 12-12 17:11 •463次阅读

企业AI算力租赁是什么

企业AI算力租赁是指企业通过互联网向专业的算力提供商租用所需的计算资源，以满足其AI应用的需求。

发表于 11-14 09:30 •1376次阅读

AI时代算力的重要性及现状:平衡发展与优化配置的挑战

在AI时代，算力扮演着至关重要的角色。如果说数据是AI大模型的“燃料”，那么算

发表于 11-04 11:45 •711次阅读

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

前面我们分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日，Meta又发布了Llama3.2：一个多语言大型语言模型

发表于 10-12 09:39 •820次阅读

中国算力大会召开，业界首个算力高质量评估体系发布

首次完整地构建了人工智能时代高质量算力的理论体系，并探索性提出业界首个 "五位一体"的高质量算力评估体系。发布现场在当前由大模型和AIG

发表于 09-28 16:50 •322次阅读

开启全新AI时代智能嵌入式系统快速发展——“第六届国产嵌入式操作系统技术与产业发展论坛”圆满结束

航空计算技术研究所研究员崔西宁做了“AI时代的机载嵌入式操作系统”专题报告。崔西宁回顾了机载软件技术发展历程，介绍机载智能计算的演进之路，分享了天脉操作系统现状和发展计划。图3崔西宁在做

发表于 08-30 17:24

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能

发表于 08-20 09:04

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

工作日内未联系，视为放弃本次试用评测资格！书籍介绍大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础，是针对其需求设计的算力及基础架构。本书针对如何为大

发表于 08-16 18:33

摩尔线程张建中：以国产算力助力数智世界，满足大模型算力需求

摩尔线程创始人兼CEO张建中在会上透露，为了满足国内对AI算力的迫切需求，他们正在积极寻求与国内顶尖科研机构的深度合作，共同推动更大规模的AI智算

发表于 05-10 16:36 •1068次阅读

液冷是大模型对算力需求的必然选择？｜英伟达 GTC 2024六大亮点

在这个以高性能计算和大模型推动未来通用人工智能时代，算力已成为科技发展的隐形支柱。本文将重点探讨算力的演

发表于 04-10 12:57 •743次阅读

数据语料库、算法框架和算力芯片在AI大模型中的作用和影响

数据语料库、算法框架和算力芯片的确是影响AI大模型发展的三大重要因素。

发表于 03-01 09:42 •1384次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

AI大语言模型的原理、演进及算力测算专题报告

评论

大模型遭遇算力墙,探索超级应用的发展路径

从堆算力到用算力，宁畅用精装算力，助力产业打造智能化摩天大楼

科技云报到：要算力更要“算利”，“精装算力”触发大模型产业新变局？

企业AI算力租赁模式的好处

5G-A家庭随身网络场景及关键技术专题报告发布

企业AI算力租赁是什么

AI时代算力的重要性及现状:平衡发展与优化配置的挑战

使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

中国算力大会召开，业界首个算力高质量评估体系发布

开启全新AI时代智能嵌入式系统快速发展——“第六届国产嵌入式操作系统技术与产业发展论坛”圆满结束

大模型时代的算力需求

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

摩尔线程张建中：以国产算力助力数智世界，满足大模型算力需求

液冷是大模型对算力需求的必然选择？｜英伟达 GTC 2024六大亮点

数据语料库、算法框架和算力芯片在AI大模型中的作用和影响