0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比

深度学习自然语言处理 来源:ChallengeHub 2023-05-19 17:03 次阅读

1

LLama

[GPT3] 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。

[PaLM]使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。

[GPTNeo]使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。

使用了AdamW优化器,并使用cosine learning rate schedule,

使用因果多头注意的有效实现来减少内存使用和运行时间。该实现可在xformers

2

Palm

采用SwiGLU激活函数:用于 MLP 中间激活,采用SwiGLU激活函数:用于 MLP 中间激活,因为与标准 ReLU、GELU 或 Swish 激活相比,《GLU Variants Improve Transformer》论文里提到:SwiGLU 已被证明可以显著提高模型效果

提出Parallel Layers:每个 Transformer 结构中的“并行”公式:与 GPT-J-6B 中一样,使用的是标准“序列化”公式。并行公式使大规模训练速度提高了大约 15%。消融实验显示在 8B 参数量下模型效果下降很小,但在 62B 参数量下没有模型效果下降的现象。

Multi-Query Attention:每个头共享键/值的映射,即“key”和“value”被投影到 [1, h],但“query”仍被投影到形状 [k, h],这种操作对模型质量和训练速度没有影响,但在自回归解码时间上有效节省了成本。

使用RoPE embeddings:使用的不是绝对或相对位置嵌入,而是RoPE,是因为 RoPE 嵌入在长文本上具有更好的性能 ,

采用Shared Input-Output Embeddings:输入和输出embedding矩阵是共享的,这个我理解类似于word2vec的输入W和输出W':

3

GLM

Layer Normalization的顺序和残差连接被重新排列,

用于输出标记预测的单个线性层;

ReLU s替换为GELU s

二维位置编码

4

BLOOM

f29ce854-f620-11ed-90ce-dac502259ad0.png

使用 ALiBi 位置嵌入,它根据键和查询的距离直接衰减注意力分数。与原始的 Transformer 和 Rotary 嵌入相比,它可以带来更流畅的训练和更好的下游性能。ALiBi不会在词嵌入中添加位置嵌入;相反,它会使用与其距离成比例的惩罚来偏向查询键的注意力评分。

f2aa5d9a-f620-11ed-90ce-dac502259ad0.png

Embedding Layer Norm 在第一个嵌入层之后立即使用,以避免训练不稳定。

使用了 25 万个标记的词汇表。使用字节级 BPE。这样,标记化永远不会产生未知标记

两个全连接层:

f2b51230-f620-11ed-90ce-dac502259ad0.png

5

GPT

GPT 使用 Transformer 的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保留了 Mask Multi-Head Attention,如下图所示:

f2c2d3ac-f620-11ed-90ce-dac502259ad0.png





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电源优化器
    +关注

    关注

    0

    文章

    11

    浏览量

    5396
  • GPT
    GPT
    +关注

    关注

    0

    文章

    338

    浏览量

    15102
  • BPEKF算法
    +关注

    关注

    0

    文章

    2

    浏览量

    1029
  • MLP
    MLP
    +关注

    关注

    0

    文章

    56

    浏览量

    4131
  • LLM
    LLM
    +关注

    关注

    0

    文章

    225

    浏览量

    254

原文标题:LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    了解大型语言模型 (LLM) 领域中的25个关键术语

    GPT系列、Google的Gemini、AnthropicAI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。2.训练训练
    的头像 发表于 05-10 08:27 963次阅读
    了解大型语言<b class='flag-5'>模型</b> (<b class='flag-5'>LLM</b>) 领域中的25个关键术语

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    一定的联系。GPT通过大量阅读和学习(模型训练),了解了词汇之间的各种关系和搭配 向GPT提问时,它会像在进行这个串联词语游戏一样,从这个问题出发,寻找与问题相关的词汇和信息。然后,GPT
    发表于 12-22 10:18

    【算能RADXA微服务器试用体验】+ GPT语音与视觉交互:1,LLM部署

    。环境变量的配置,未来在具体项目中我们会再次提到。 下面我们正式开始项目。项目从输入到输出分别涉及了语音识别,图像识别,LLM,TTS这几个与AI相关的模块。先从最核心的LLM开始。 由于LLAMA
    发表于 06-25 15:02

    各种大语言模型是彻底被解封了

    基础 LLM 基本信息表,GPT-style 表示 decoder-only 的自回归语言模型,T5-style 表示 encoder-decoder 的语言模型
    的头像 发表于 04-20 11:25 1260次阅读

    号称「碾压」LLaMA的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

    这是一组由 Meta 开源的大型语言模型,共有 7B、13B、33B、65B 四种版本。其中,LLaMA-13B 在大多数数据集上超过了 GPT-3(175B),LLaMA-65B 达
    的头像 发表于 06-11 11:24 523次阅读
    号称「碾压」<b class='flag-5'>LLaMA</b>的Falcon实测得分仅49.08,HuggingFace决定重写排行榜代码

    Llama 2性能如何

    在几乎所有基准上,Llama 2 70B 的结果均与谷歌 PaLM (540B) 持平或表现更好,不过与 GPT-4 和 PaLM-2-L 的性能仍存在较大差距。
    发表于 07-23 13:00 1208次阅读
    <b class='flag-5'>Llama</b> 2性能如何

    Meta推出Llama 2 免费开放商业和研究机构使用

    与所有LLM一样,Llama 2偶尔会产生不正确或不可用的答案,但Meta介绍Llama的论文声称,它在学术基准方面与OpenAI的GPT 3.5不相上下,如MMLU(衡量
    的头像 发表于 08-02 16:17 540次阅读
    Meta推出<b class='flag-5'>Llama</b> 2 免费开放商业和研究机构使用

    深入理解Llama模型的源码案例

    目前大部分开源LLM模型都是基于transformers库来做的,它们的结构大部分都和Llama大同小异。
    发表于 08-23 11:44 2136次阅读
    深入理解<b class='flag-5'>Llama</b><b class='flag-5'>模型</b>的源码案例

    Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

    今天,Meta发布了Code Llama,一款可以使用文本提示生成代码的大型语言模型LLM)。
    的头像 发表于 08-25 09:06 1130次阅读
    Meta发布一款可以使用文本提示生成代码的大型语言<b class='flag-5'>模型</b>Code <b class='flag-5'>Llama</b>

    一文详解GPT tokenizer 的工作原理

    语言大模型(如 GPT-3/4、LLaMAPaLM)使用 token 作为基本单位进行工作。它们接受文本作为输入,将其转换为 token(整数),然后预测接下来应该出现哪些 to
    发表于 09-15 11:13 576次阅读
    一文详解<b class='flag-5'>GPT</b> tokenizer 的工作原理

    大语言模型简介:基于大语言模型模型全家桶Amazon Bedrock

    本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶:Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数(B+)的预训练语言模型(例如:
    的头像 发表于 12-04 15:51 539次阅读

    智谱AI推出新一代基座大模型GLM-4

    智谱AI近日宣布推出新一代基座大模型GLM-4。这一模型在整体性能上相较上一代实现了大幅提升,其表现已逼近GPT-4。
    的头像 发表于 01-17 15:29 714次阅读

    LLaMA 2是什么?LLaMA 2背后的研究工作

    Meta 发布的 LLaMA 2,是新的 sota 开源大型语言模型 (LLM)。LLaMA 2 代表着 LLaMA 的下一代版本,并且具有
    的头像 发表于 02-21 16:00 607次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms(META.US)推出了开源AI大模型Ll
    的头像 发表于 04-19 17:00 599次阅读

    Meta发布基于Code LlamaLLM编译器

    近日,科技巨头Meta在其X平台上正式宣布推出了一款革命性的LLM编译器,这一模型家族基于Meta Code Llama构建,并融合了先进的代码优化和编译器功能。LLM编译器的推出,标
    的头像 发表于 06-29 17:54 1099次阅读