LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT结构对比-电子发烧友网

LLama

[GPT3] 使用RMSNorm（即Root Mean square Layer Normalization）对输入数据进行标准化，RMSNorm可以参考论文：Root mean square layer normalization。

[PaLM]使用激活函数SwiGLU，该函数可以参考PALM论文：Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings进行位置编码，该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW优化器，并使用cosine learning rate schedule，

使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

Palm

采用SwiGLU激活函数：用于 MLP 中间激活，采用SwiGLU激活函数：用于 MLP 中间激活，因为与标准 ReLU、GELU 或 Swish 激活相比，《GLU Variants Improve Transformer》论文里提到：SwiGLU 已被证明可以显著提高模型效果

提出Parallel Layers：每个 Transformer 结构中的“并行”公式：与 GPT-J-6B 中一样，使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小，但在 62B 参数量下没有模型效果下降的现象。

Multi-Query Attention：每个头共享键/值的映射，即“key”和“value”被投影到 [1, h]，但“query”仍被投影到形状 [k, h]，这种操作对模型质量和训练速度没有影响，但在自回归解码时间上有效节省了成本。

使用RoPE embeddings：使用的不是绝对或相对位置嵌入，而是RoPE，是因为 RoPE 嵌入在长文本上具有更好的性能，

采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的，这个我理解类似于word2vec的输入W和输出W'：

GLM

Layer Normalization的顺序和残差连接被重新排列，

用于输出标记预测的单个线性层；

ReLU s替换为GELU s

二维位置编码

BLOOM

使用 ALiBi 位置嵌入，它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比，它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入；相反，它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。

Embedding Layer Norm 在第一个嵌入层之后立即使用，以避免训练不稳定。

使用了 25 万个标记的词汇表。使用字节级 BPE。这样，标记化永远不会产生未知标记

两个全连接层：

GPT

GPT 使用 Transformer 的 Decoder 结构，并对 Transformer Decoder 进行了一些改动，原本的 Decoder 包含了两个 Multi-Head Attention 结构，GPT 只保留了 Mask Multi-Head Attention，如下图所示:

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

电源优化器

电源优化器

+关注

关注
0

文章
11

浏览量
5408
GPT

GPT

+关注

关注
0

文章
354

浏览量
15419
BPEKF算法

BPEKF算法

+关注

关注
0

文章
2

浏览量
1067
MLP

MLP

+关注

关注
0

文章
57

浏览量
4256
LLM

LLM

+关注

关注
0

文章
290

浏览量
351

原文标题：LLM底座模型：LLaMA、Palm、GLM、BLOOM、GPT结构对比

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

一定的联系。GPT通过大量阅读和学习（模型训练），了解了词汇之间的各种关系和搭配向GPT提问时，它会像在进行这个串联词语游戏一样，从这个问题出发，寻找与问题相关的词汇和信息。然后，GPT

发表于 12-22 10:18

【算能RADXA微服务器试用体验】+ GPT语音与视觉交互：1，LLM部署

。环境变量的配置，未来在具体项目中我们会再次提到。下面我们正式开始项目。项目从输入到输出分别涉及了语音识别，图像识别，LLM，TTS这几个与AI相关的模块。先从最核心的LLM开始。由于LLAMA

发表于 06-25 15:02

各种大语言模型是彻底被解封了

基础 LLM 基本信息表，GPT-style 表示 decoder-only 的自回归语言模型，T5-style 表示 encoder-decoder 的语言模型，

发表于 04-20 11:25 •1551次阅读

号称「碾压」LLaMA的Falcon实测得分仅49.08，HuggingFace决定重写排行榜代码

这是一组由 Meta 开源的大型语言模型，共有 7B、13B、33B、65B 四种版本。其中，LLaMA-13B 在大多数数据集上超过了 GPT-3（175B），LLaMA-65B 达

发表于 06-11 11:24 •668次阅读

Llama 2性能如何

在几乎所有基准上，Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好，不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。

发表于 07-23 13:00 •1307次阅读

Meta推出Llama 2 免费开放商业和研究机构使用

与所有LLM一样，Llama 2偶尔会产生不正确或不可用的答案，但Meta介绍Llama的论文声称，它在学术基准方面与OpenAI的GPT 3.5不相上下，如MMLU（衡量

发表于 08-02 16:17 •762次阅读

深入理解Llama模型的源码案例

目前大部分开源LLM模型都是基于transformers库来做的，它们的结构大部分都和Llama大同小异。

发表于 08-23 11:44 •3023次阅读

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：

发表于 12-04 15:51 •808次阅读

智谱AI推出新一代基座大模型GLM-4

智谱AI近日宣布推出新一代基座大模型GLM-4。这一模型在整体性能上相较上一代实现了大幅提升，其表现已逼近GPT-4。

发表于 01-17 15:29 •1069次阅读

LLaMA 2是什么？LLaMA 2背后的研究工作

Meta 发布的 LLaMA 2，是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着 LLaMA 的下一代版本，并且具有

发表于 02-21 16:00 •1129次阅读

Meta推出最强开源模型Llama 3 要挑战GPT

Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms（META.US）推出了开源AI大模型“Ll

发表于 04-19 17:00 •845次阅读

llm模型和chatGPT的区别

，有许多不同的LLM模型，如BERT、GPT、T5等。 ChatGPT是一种基于GPT（Generative Pre-trained Transformer）

发表于 07-09 09:55 •1114次阅读

llm模型有哪些格式

LLM（Large Language Model，大型语言模型）是一种深度学习模型，主要用于处理自然语言处理（NLP）任务。LLM模型的格式

发表于 07-09 09:59 •650次阅读

Llama 3 与 GPT-4 比较

随着人工智能技术的飞速发展，我们见证了一代又一代的AI模型不断突破界限，为各行各业带来革命性的变化。在这场技术竞赛中，Llama 3和GPT-4作为两个备受瞩目的模型，它们代表了当前A

发表于 10-27 14:17 •379次阅读

Llama 3 模型与其他AI工具对比

Llama 3模型与其他AI工具的对比可以从多个维度进行，包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对Llama 3

发表于 10-27 14:37 •415次阅读