爆了！GPT-4模型架构、训练成本、数据集信息都被扒出来了-电子发烧友网

一直以来，大家都对 GPT-4 的模型架构、基础设施、训练数据集、成本等信息非常好奇。

奈何 OpenAI 嘴太严，很长时间以来，大家也都只是猜测这些数据。

不久之前，「天才黑客」乔治・霍兹（George Hotz）在接受一家名为 Latent Space 的 AI 技术播客采访时透露出一个小道消息，称 GPT-4 是由 8 个混合专家模型组成的集成系统，每个专家模型都有 2200 亿个参数（比 GPT-3 的 1750 亿参数量略多一些），并且这些模型经过了针对不同数据和任务分布的训练。

虽然此消息无法验证，但其流传度非常高，也被部分业内人士认为非常合理。

最近，更多的消息似乎被泄露了出来。

今日，SemiAnalysis 发布了一篇付费订阅的内容，「揭秘」了有关 GPT-4 的更多信息。

文章称，他们从许多来源收集了大量有关 GPT-4 的信息，包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集组成、token 量、层数、并行策略、多模态视觉适应、不同工程权衡背后的思维过程、独特的实现技术以及如何减轻与巨型模型推理有关的瓶颈等。

作者表示，GPT-4 最有趣的方面是理解 OpenAI 为什么做出某些架构决策。

此外，文章还介绍了 A100 上 GPT-4 的训练和推理成本，以及如何拓展到下一代模型架构 H100 。

我们根据 Deep Trading（一家算法交易公司）创始人 Yam Peleg 的推文（目前已删除），整理了以下关于 GPT-4 的数据信息。感兴趣的读者可以细致研究下。

不过请注意，这并非官方确认的数据，大家自行判断其准确性。

1、参数量：GPT-4 的大小是 GPT-3 的 10 倍以上。文章认为它 120 层网络中总共有 1.8 万亿个参数。

2、确实是混合专家模型。OpenAI 能够通过使用混合专家（MoE）模型来保持合理成本。他们在模型中使用了 16 个专家模型，每个专家模型大约有 111B 个参数。这些专家模型中的 2 个被路由到每个前向传递。

3、MoE 路由：尽管文献中对于选择将每个 token 路由到哪个专家模型的高级路由算法进行了大量讨论，但据称 OpenAI 在当前的 GPT-4 模型中采用了相当简单的路由方式。该模型大约使用了 550 亿个共享参数来进行注意力计算。

4、推理：每次前向传递的推理（生成 1 个 token）仅利用约 2800 亿个参数和约 560 TFLOP 的计算量。相比之下，纯密集模型每次前向传递需要大约 1.8 万亿个参数和约 3700 TFLOP 的计算量。

5、数据集：GPT-4 的训练数据集包含约 13 万亿个 token。这些 token 是重复计算之后的结果，多个 epoch 中的 token 都计算在内。

Epoch 数量：针对基于文本的数据进行了 2 个 epoch 的训练，而针对基于代码的数据进行了 4 个 epoch 的训练。此外，还有来自 ScaleAI 和内部的数百万行的指令微调数据。

6、GPT-4 32K：在预训练阶段，GPT-4 使用了 8k 的上下文长度（seqlen）。而 32k 序列长度版本的 GPT-4 是在预训练后对 8k 版本进行微调而得到的。

7、Batch Size：在计算集群上，几天时间里，batch size 逐渐增加，最后，OpenAI 使用 batch size 达到了 6000 万！当然，由于不是每个专家模型都能看到所有 token，因此这仅仅是每个专家模型处理 750 万个 token 的 batch size。

真实的 batch size：将这个数字除以序列长度（seq len）即可得到真实的 batch size。请不要再使用这种误导性的数字了。

8、并行策略：为了在所有 A100 GPU 上进行并行计算，他们采用了 8 路张量并行，因为这是 NVLink 的极限。除此之外，他们还采用了 15 路流水线并行。（很可能使用了 ZeRo Stage 1，也可能使用了块级的 FSDP）。

9、训练成本：OpenAI 在 GPT-4 的训练中使用了大约 2.15e25 的 FLOPS，使用了约 25，000 个 A100 GPU，训练了 90 到 100 天，利用率（MFU）约为 32% 至 36%。这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。

如果他们在云端的每个 A100 GPU 的成本大约为每小时 1 美元，那么仅此次训练的成本将达到约 6300 万美元。（而如今，如果使用约 8192 个 H100 GPU 进行预训练，用时将降到 55 天左右，成本为 2150 万美元，每个 H100 GPU 的计费标准为每小时 2 美元。）

10、使用专家混合模型时的 tradeoff：在使用专家混合模型时存在多方面 tradeoff。

例如，在推理过程中处理 MoE 非常困难，因为并非模型的每个部分都在每个 token 生成时被利用。这意味着在某些部分被使用时，其他部分可能处于闲置状态。在为用户提供服务时，这会严重影响资源利用率。研究人员已经证明使用 64 到 128 个专家比使用 16 个专家能够实现更好的损失（loss），但这仅仅是研究的结果。

选择较少的专家模型有多个原因。OpenAI 选择 16 个专家模型的一大原因是：在许多任务中，更多的专家模型很难泛化，也可能更难收敛。

由于进行了如此大规模的训练，OpenAI 选择在专家模型数量上更加保守。

11、推理成本：GPT-4 的推理成本是 1750 亿参数的 Davinci 模型的 3 倍。这主要是因为 GPT-4 需要更大规模的集群，并且达到的利用率要低得多。

据估计，在用 128 个 A100 GPU 进行推理的情况下，8k 版本 GPT-4 推理的成本为每 1，000 个 token 0.0049 美分。如果使用 128 个 H100 GPU 进行推理，同样的 8k 版本 GPT-4 推理成本为每 1，000 个 token 0.0021 美分。值得注意的是，这些估计假设了高利用率和保持较高的 batch size。

12、Multi-Query Attention：OpenAI 和其他机构一样，也在使用 Multi-Query Attention（MQA）。由于使用 MQA 只需要一个注意力头（head），并且可以显著减少用于 KV 缓存的内存容量。即便如此，32k 序列长度的 GPT-4 也绝对无法在 40GB 的 A100 GPU 上运行，而 8k 序列长度的模型则受到了最大 batch size 的限制。

13、连续 batching：OpenAI 实现了可变 batch size 和连续 batching。这样做是为了允许一定程度的最大延迟，并优化推理成本。

14、视觉多模态：它是一个独立于文本编码器的视觉编码器，二者之间存在交叉注意力。该架构类似于 Flamingo。这在 GPT-4 的 1.8 万亿个参数之上增加了更多参数。在纯文本的预训练之后，它又经过了另外约 2 万亿个 token 的微调。

对于视觉模型，OpenAI 本来希望从零开始训练，但由于其尚未成熟，所以他们决定先从文本开始训练来降低风险。

这种视觉能力的主要目的之一是使自主智能体能够阅读网页并转录图像和视频中的内容。

他们训练的一部分数据是联合数据（包括渲染的 LaTeX / 文本）、网页的截屏、YouTube 视频（采样帧），并使用 Whisper 对其进行运行以获取转录文本。

15、推测式解码（Speculative Decoding）：OpenAI 可能在 GPT-4 的推理过程中使用了推测式解码技术（不确定是否 100%）。这种方法是使用一个更小更快的模型提前解码多个 token，并将它们作为单个 batch 输入到一个大型的预测模型（oracle model）中。

如果小型模型对其预测是正确的，大型模型将会同意，我们可以在单个 batch 中解码多个 token。

但是，如果大型模型拒绝了草稿模型预测的 token，那么 batch 中剩余的部分将被丢弃，然后我们将继续使用大型模型进行解码。

有些阴谋论指出，新的 GPT-4 质量已经下降，这可能只是因为他们让推测式解码模型（speculative decoding model）将概率较低的序列传递给预测模型，从而导致了这种误解。

16、推理架构：推理运行在由 128 个 GPU 组成的集群上。在不同地点的多个数据中心存在多个这样的集群。推理过程采用 8 路张量并行（tensor parallelism）和 16 路流水线并行（pipeline parallelism）。每个由 8 个 GPU 组成的节点仅具有约 1300 亿个参数。

该模型有 120 层，因此适合于 15 个不同的节点。可能第一个节点的层数较少，因为它还需要计算嵌入。

根据这些数字，如果 OpenAI 试图按照 chinchilla 的最佳指标进行训练，他们应该使用的 token 数量是现在的两倍。这表明他们在获取高质量数据方面遇到了困难。

最后想说的是，这应该是迄今为止关于 GPT-4 最为详细的数据揭秘。目前还不能求证是否真实，但也值得大家研究下。正如原文作者所说，「有趣的方面是理解 OpenAI 为什么做出某些架构决策。」

关于 GPT-4 的这些架构信息，你怎么看？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3298

浏览量
49147
数据集

数据集

+关注

关注
4

文章
1209

浏览量
24803
OpenAI

OpenAI

+关注

关注
9

文章
1123

浏览量
6664

原文标题：爆了！GPT-4模型架构、训练成本、数据集信息都被扒出来了...

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

采用FP8混合精度，DeepSeek V3训练成本仅557.6万美元！

的模型需要花费约4684.8万美元。然而，随着技术的进步，这一成本正在迅速降低。DeepSeek V3的出现，标志着训练成本的大幅下降，其训练成本仅为557.6万美元，相较于之前的

发表于 01-13 11:12 •274次阅读

OpenAI GPT-5开发滞后：训练成本高昂

已经对GPT-5进行了至少两轮大规模训练，希望通过海量数据资源来优化模型效能。然而，首次训练的实际运行结果并未达到预期标准，导致更大规模的

发表于 12-23 11:04 •287次阅读

Llama 3 与 GPT-4 比较

沿。一、技术架构 Llama 3和GPT-4都是基于深度学习的自然语言处理（NLP）模型，但它们的设计理念和技术细节有所不同。 Llama 3 采用了一种创新的混合架构，结合

发表于 10-27 14:17 •462次阅读

AI大模型训练成本飙升，未来三年或达千亿美元

Anthropic的首席执行官Dario Amodei在知名Podcast节目《In Good Company》中，就这一话题发表了深刻见解，揭示了AI大模型训练成本即将面临的巨大挑战

发表于 07-11 15:06 •635次阅读

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

基于GPT-4的模型——CriticGPT，这款模型专为捕获ChatGPT代码输出中的错误而设计，其独特的作用在于，让人们能够用GPT-4来查找GP

发表于 06-29 09:55 •587次阅读

谷歌Gemini Ultra模型训练成本近2亿美元

斯坦福大学与研究巨头Epoch AI联合揭示了云计算时代下AI模型训练成本的飞速增长。最新研究结果显示，AI巨头OpenAI的GPT-4训练成本

发表于 06-07 09:36 •642次阅读

GPT-4人工智能模型预测公司未来盈利胜过人类分析师

据悉，本次研究中，研究人员仅向GPT-4提供了匿名的财务数据，包括资产负债表和损益表，并要求其预测未来盈利增长。尽管未获得其他信息，GPT-4

发表于 05-27 16:41 •650次阅读

OpenAI全新GPT-4o能力炸场！速度快/成本低，能读懂人类情绪

”的意思。GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的两倍，但成本仅为

发表于 05-15 00:15 •7896次阅读

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

阿里云隆重推出了通义千问 2.5 版，宣称其“技术进步，全面超越GPT-4”，尤其是在中文环境中的多种任务（如文本理解、文本生成、知识问答及生活建议、临时聊天及对话以及安全风险评估）方面表现出色，超越了GPT-4。

发表于 05-09 14:17 •1016次阅读

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo 4月23日，商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布了行业首个云、端、边全栈大

发表于 04-24 16:49 •1171次阅读

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

据悉，此模型沿用GPT-4 Turbo系列特有的12.8万token窗口规模及截至2023年12月的知识库架构，其创新亮点则是强大的视觉理解功能。

发表于 04-10 10:49 •439次阅读

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

起初，Copilot作为Bing Chat AI助手推出，初期采用GPT-3.5模型，随后升级至GPT-4取得显著进步，如今再次更新至性能卓越的GPT-4 Turbo

发表于 03-13 13:42 •772次阅读

全球最强大模型易主，GPT-4被超越

近日，AI领域的领军企业Anthropic宣布推出全新的Claude 3系列模型，其中包括最强版Claude 3 Opus。据该公司称，Claude 3系列在推理、数学、编码、多语言理解和视觉方面全面超越了包括GPT-4在内的所

发表于 03-05 09:58 •695次阅读

Anthropic推出Claude 3系列模型，全面超越GPT-4，树立AI新标杆

近日，AI领域的领军企业Anthropic震撼发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键领域展现出卓越性能，成功击败了此前被广泛认为是全球最强AI

发表于 03-05 09:49 •734次阅读

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角

近日，人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键指标上展现出卓越性能，成功超越

发表于 03-05 09:42 •699次阅读

搜索历史

爆了！GPT-4模型架构、训练成本、数据集信息都被扒出来了

评论

采用FP8混合精度，DeepSeek V3训练成本仅557.6万美元！

OpenAI GPT-5开发滞后：训练成本高昂

Llama 3 与 GPT-4 比较

AI大模型训练成本飙升，未来三年或达千亿美元

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

谷歌Gemini Ultra模型训练成本近2亿美元

GPT-4人工智能模型预测公司未来盈利胜过人类分析师

OpenAI全新GPT-4o能力炸场！速度快/成本低，能读懂人类情绪

阿里云发布通义千问2.5大模型，多项能力超越GPT-4

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

全球最强大模型易主，GPT-4被超越

Anthropic推出Claude 3系列模型，全面超越GPT-4，树立AI新标杆

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角