0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MOE与MOT:提升LLM效能的关键策略比较

深度学习自然语言处理 来源:知乎:北方的郎 2024-04-15 09:53 次阅读

事实证明,LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展,也就是说,模型越大,成本就越高。

eb343318-fa7c-11ee-a297-92fbcf53809c.png

eb4b5bce-fa7c-11ee-a297-92fbcf53809c.jpg

基于参数计数的 LLM 性能

这是该行业面临的最大挑战之一。虽然专家混合(Mixture of Experts:MOE)最近被大肆宣传用于改进Transformer模型,但机器学习人员发现了一种更有前途的新方法——令牌混合(Mixture of Tokens:MOT)。MOE在尝试不同模型时表现出的某些缺点导致需要其他方法。在这篇博文中,我们将讨论这些新技术,并研究 MoT 在保持训练和推理成本的同时扩展大型语言模型的方式。

Mixture of Experts

Mixture of Experts 因显着优化 Transformer 的可扩展性而闻名。要理解这一点,我们首先要了解这些“专家”是谁。在 MoE 中,专家是专门执行一项或多项任务的模型。在标准Transformer模型中,令牌(token)由标准前馈层处理。MoE 没有采用这种方法,而是将每个token定向到一组专家以及一个称为控制器的小型网络。该控制器确保每个令牌仅由一小部分专家处理。

开关Transformer将每个令牌发送给控制器产生的得分最高的一位专家。这项技术导致参数大幅减少——从 1.6T 模型(T5 架构)到等效 1.4B vanilla Transformer 的 FLOPS 成本。

专家选择提供了一种略有不同的方法。不是让token选择前 k 个专家,而是专家自己选择前 k 个token。该方法保证了均匀的负载平衡(每个专家接收相同数量的令牌),并在训练效率和下游性能方面取得了显着的进步。然而,存在某些Token不被选择的风险。

eb5e580a-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 方法:从左到右:标准前馈、开关、专家选择


当前方法的局限性

虽然大参数 MoE 架构的性能令人印象深刻,但它们在训练和推理过程中面临着一系列新的挑战。最值得注意的是:

训练不稳定性:这种方法谨慎地选择专家并将其与token匹配。这意味着控制器权重的微小变化可能会对控制器决策产生不成比例的影响。

负载不平衡: MoE 的问题是我们无法有效地平衡令牌和专家的分配方式,因为路由网络的选择没有受到有效的限制。这就是为什么有些令牌没有任何专家来处理它们(令牌丢弃),并且几乎所有令牌都只分配给少数专家(模型崩溃)。

信息泄漏:一些成功的 MoE 方法将序列中不同位置的令牌一起处理(即,通过比较批次中所有令牌的分数)。这造成了序列内信息泄漏并阻碍了它们在自回归解码中的实用性。

知识混合性:由于专家数量有限,传统 MoE 架构中的专家通常会积累广泛的知识。这种广泛的知识库削弱了个别专家的专业性和有效性。

知识冗余:多个专家在学习相似信息时有趋同的倾向,导致知识领域重叠和模型参数使用效率低下。

在他们最近的论文中,Cohere AI 的科学家讨论了解决MOE主要挑战之一的方法——必须将所有专家存储在内存中。他们通过将 MoE 架构与轻量级专家独特地结合起来,提出了参数极其高效的 MoE。他们的 MoE 架构优于标准 PEFT 方法,并且仅通过更新轻量级专家即可达到完全微调的效果——不到 11B 参数模型的 1%。

解决MOE的限制

在他们最近的论文中,Cohere AI 的科学家讨论了解决MOE主要挑战之一的方法——将所有专家存储在内存中。他们通过将 MoE 架构与轻量级专家独特地结合起来,提出了一种参数极其高效的 MoE。他们的 MoE 架构优于标准 PEFT 方法,并且仅通过更新轻量级专家即可达到完全微调的效果——不到 11B 参数模型的 1%。

最近的一篇论文讨论了 MoE 的最后两个局限性,并提出了一种解决这些问题的新技术——DeepSeekMoE。这是新的 MoE 架构,旨在通过采用两个关键策略来增强专家专业化:细粒度专家分割和共享专家隔离。

细粒度专家分割(Fine-grained expert segmentation)涉及细分 FFN 中间隐藏维度,从而允许细粒度专家之间更细致地分配知识。这种细分使每个专家能够专注于更具体的知识领域,从而在保持恒定的计算成本的同时实现更高水平的专业化。

同时,共享专家隔离(shared expert isolation)策略将特定专家指定为“共享”,负责捕获不同背景下的共同知识。通过将一般知识集中在这些共享专家上,减少了其他专家学习过程中的冗余。这种方法提高了参数效率,并确保每位专家始终专注于独特且独特的知识领域。

eb6c6756-fa7c-11ee-a297-92fbcf53809c.jpg

DeepSeekMoE。在这三种架构中,专家参数的数量和计算成本保持不变

DeepSeekMoE 经过扩展可训练 16B 模型,只需约 40% 的计算量,即可实现与 DeepSeek 7B 和 LLaMA2 7B 相当的性能。研究人员还计划将 DeepSeekMoE 扩展到 145B,突出其相对于 GShard 架构的优势,并展示与 DeepSeek 67B 相当的性能。

Token混合(Mixture of Tokens)

MoE 的几个缺点导致了混合Token(MoT)的兴起。这种对方法的轻微修改解决了所讨论的方法带来的许多问题。MoT 不是将token发送给专家,而是将不同示例中的token混合在一起,然后再将其提供给专家。这使得模型能够从所有token-专家组合中学习,并提高训练稳定性和专家利用率。在向专家提供token后,每种混合物都会被处理并重新分配回原始token。

token混合是如何进行的?首先,您需要为每个token设置重要性权重。这是通过控制器完成的,然后是对生成的token分数执行 softmax 层。因此,每个专家的token权重是独立计算的。最后,将每个token乘以其重要性权重,然后将它们全部加在一起。

eb948646-fa7c-11ee-a297-92fbcf53809c.jpg

令牌混合:每个专家的令牌都是唯一混合的(混合权重由控制器决定,为简单起见,此处省略),然后处理每个混合物并将其重新分配回原始令牌(使用与之前相同的权重)。

MoT 通过进行以下更改来解决 MoE 模型的问题:

混合来自不同示例的token,然后将其提供给专家;通过允许模型从所有token-专家组合中学习,这提高了训练稳定性和专家利用率。

token混合是一个完全可微的模型,这意味着它可以使用标准的基于梯度的方法进行训练。这避免了辅助损失或其他难以训练的技术的需要,从而更容易训练和部署。”

eba0062e-fa7c-11ee-a297-92fbcf53809c.jpg

MoE 与 MoT:在专家混合中(左),每个令牌都被路由到不同的专家前馈层。在令牌混合(右)中,每组内的令牌被混合,并且混合令牌由专家前馈层处理。

结论

toke混合有可能显着提高LLM的表现和效率。与普通 Transformer 相比,它显示出训练时间减少了 3 倍的惊人结果。未来,我们预计 MoT 将继续带来更显着的改进。

ebaa9030-fa7c-11ee-a297-92fbcf53809c.jpg

MoTs 仅用 1/4 的步数和 1/3 的训练时间就减少了密集香草 Transformer 的最终训练损失,预计未来将显着改善。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 控制器
    +关注

    关注

    112

    文章

    16240

    浏览量

    177599
  • 机器学习
    +关注

    关注

    66

    文章

    8386

    浏览量

    132469
  • LLM
    LLM
    +关注

    关注

    0

    文章

    279

    浏览量

    310

原文标题:MOE vs MOT 让LLM更加有效

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    低比特量化技术如何帮助LLM提升性能

    针对大语言模型 (LLM) 在部署过程中的性能需求,低比特量化技术一直是优化效果最佳的方案之一,本文将探讨低比特量化技术如何帮助 LLM 提升性能,以及新版 OpenVINO 对于低比特量化技术的支持。
    的头像 发表于 12-08 15:26 1113次阅读
    低比特量化技术如何帮助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b>性能

    无法在MCRA中设置MOE

    无法在MCRA中设置MOE位以上来自于谷歌翻译以下为原文 can not set MOE bit in MCRA
    发表于 05-22 12:29

    小型调度MOE自制分享!

    ,不过发现写多了,忘得也快,还是开贴记录一下比较好,同时也希望能得到大家的指导和监督。MOE是出于学习目的而自制的小型调度,包含事件驱动、消息机制、调试选项、各种实用软件模块和应用等,整体做了模块化
    发表于 10-22 23:01

    如何提升非零等待区Flash效能

    部分 AT32 带有非零等待区,当代码超过零等待区后,且时钟不高于 72MHz,读取Flash 的效能会降低。此时不改变外围时钟,如何快速修改程序以提高 Flash 效能
    发表于 10-20 08:26

    STEP_MOT

    DSP之STEP_MOT教程,很好的DSP自学资料,快来学习吧。
    发表于 04-15 17:49 4次下载

    MMC控制策略比较分析研究

    MMC控制策略比较分析研究_李威
    发表于 01-07 18:12 2次下载

    关于协同空战目标分配效能优化策略仿真_安超

    关于协同空战目标分配效能优化策略仿真_安超
    发表于 03-19 19:04 0次下载

    基于材料屏蔽效能测试比较

    屏蔽效能是对屏蔽体隔离或限制电磁波的能力的度量,是反映屏蔽材料最主要的指标,因此,屏蔽效能测试技术的规范性、适用性至关重要。目前屏蔽效能测试标准已有十几种,包括国标、国军标、行标等,虽然每种方法都能
    发表于 02-28 14:59 1次下载

    Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!

    本文介绍一篇 LLM 推理加速技术 相关的文章,值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导,但是传统的批处理策略存在低效性。在这篇文章中,我们将告诉你
    的头像 发表于 10-15 20:25 640次阅读
    Continuous Batching:解锁<b class='flag-5'>LLM</b>潜力!让<b class='flag-5'>LLM</b>推断速度飙升23倍,降低延迟!

    军用滤波器的设计与优化:提升通信质量的关键策略!

    军用滤波器是一种用于军用通信系统中的电源保护装置,主要用于过滤电网中的谐波、干扰及电磁噪声等问题。它的作用是保护通信设备、提高通信质量、增强战场信息交流。下面深圳市维爱普电子有限公司小编将详细介绍军用滤波器的设计与优化对于提升通信质量的关键
    的头像 发表于 01-15 15:36 622次阅读
    军用滤波器的设计与优化:<b class='flag-5'>提升</b>通信质量的<b class='flag-5'>关键</b><b class='flag-5'>策略</b>!

    基于NVIDIA Megatron Core的MOE LLM实现和训练优化

    本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大语言模型(LLM)实现与训练优化上的创新工作。
    的头像 发表于 03-22 09:50 726次阅读
    基于NVIDIA Megatron Core的<b class='flag-5'>MOE</b> <b class='flag-5'>LLM</b>实现和训练优化

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。LLM以其强大的文本生成、理解和推理能力,在文本
    的头像 发表于 07-02 11:45 7118次阅读

    LLM大模型推理加速的关键技术

    LLM(大型语言模型)大模型推理加速是当前人工智能领域的一个研究热点,旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨,内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行推理以及特
    的头像 发表于 07-24 11:38 801次阅读

    LLM技术对人工智能发展的影响

    随着人工智能技术的飞速发展,大型语言模型(LLM)技术已经成为推动AI领域进步的关键力量。LLM技术通过深度学习和自然语言处理技术,使得机器能够理解和生成自然语言,极大地扩展了人工智能的应用范围
    的头像 发表于 11-08 09:28 272次阅读

    猎户星空发布Orion-MoE 8×7B大模型及AI数据宝AirDS

    。 Orion-MoE 8×7B是猎户星空精心打造的开源混合架构专家大模型,该模型拥有高达8×70亿的参数规模,采用了先进的生成式混合专家设计。这一设计使得Orion-MoE 8×7B在性能上有了显著提升,能够轻松应对多种复杂任
    的头像 发表于 11-29 13:57 121次阅读