0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种非自回归的预训练方法

深度学习自然语言处理 来源:无数据不智能 2023-04-27 09:58 次阅读

概览

市面上的标题党往往会采用夸张的文字,例如:ChatGPT被淘汰,AutoGPT来袭。但是对于行业内的人来说,这种标题很明显是标题党。这两个模型都是基于GPT-3或者GPT-4的技术,它们在技术上本质上没有太大的区别。

虽然GPT模型在自然语言处理领域中表现出色,但是它们仍然存在一些问题。例如,GPT模型的自回归设计导致它在生成新单词或短语时需要等待整个序列生成完成,这样的过程显然会减缓生成速度。

3bccec08-e49d-11ed-ab56-dac502259ad0.png

由于这些问题,一些研究人员开始探索非自回归模型的设计,这种方法可以提高生成速度。

但非自回归模型的输出结果可能会出现不连贯的情况,这种情况需要更多的研究和解决方案。

总之,非自回归模型是一种很有前途的技术,可以成为未来颠覆GPT的重要技术之一。虽然这些方法仍然需要更多的研究和开发,但是应该持续关注它们的发展。

三种文本生成方式

自回归(AR)

生成模型基于从左到右的输出文本,其中每个标记yt是基于输入文本X和前面的标记y

非自回归(NAR)

与AR模型相比,文本生成模型同时预测输出文本中的每个标记,而不对前向或后向标记依赖进行建模。其中每个标记yt仅根据输入文本X进行预测。独立性假设使NAR生成过程可并行化,从而显著加快了推理速度。然而,在没有token依赖的情况下,NAR模型的生成质量低于AR模型。

半自回归(Semi-NAR)

半NAR生成在AR和NAR生成之间形式化,其中每个标记yt以输入文本X和输出文本Y的可见部分Yct为条件。

本文主要关注NAR方法,并同时考虑文本生成模型的有效性和效率。

一种非自回归的预训练方法

3bdffba4-e49d-11ed-ab56-dac502259ad0.png

本文介绍的方法ELMER是基于Transformer编码器-解码器架构构建的。解码器和编码器都由多个堆叠组成,每个层包含多个子层(例如,多头自注意力和前馈网络)。与原始Transformer解码器自回归生成文本不同,模型使用NAR方式同时生成标记。给定一对输入-输出文本〈X,Y〉,X被馈送到编码器中并被处理为隐藏状态S = 〈s1,...,sn〉。然后将一系列“[MASK]”标记序列馈送到NAR解码器中以并行生成输出文本Y中的每个标记。

提前退出机制

通常情况下,大多数NAR模型只在最后一层同时预测token,因此,token预测不知道其他位置生成的token。为了解决这个问题,ELMER在不同层生成token。上层token的生成可以依赖于从左侧和右侧生成的下层token。通过这种方式,模型可以明确地学习来自不同层标记之间的依赖关系,并且在NAR解码中享受完全的并行性,如上图所示。如果在较低层生成token时有足够的置信度,则允许模型在该层退出并进行预测,而不经过上层。

层排列预训练

与大多数先前工作专注于为特定任务(如翻译)设计小规模NAR模型不同,ELMER使用大规模语料库对通用大规模PLM进行预训练。这使得ELMER能够适应各种下游任务。

首先将损坏的文本输入编码器,然后使用上述LPLM以NAR方式由解码器重建原始文本来训练模型。主要采用两种有用的文档损坏方法:

洗牌:首先将原文按照句号分成句子,然后对这些句子进行随机洗牌。

文本填充:基于打乱的文本,从泊松分布(λ = 3)中抽取长度的15%跨度进行采样。在BART之后,每个span都被替换为单个“[MASK]” token,模型可以学习应该预测一个span中的多少个token。

下游微调

预训练模型可用于微调各种下游文本生成任务。在微调阶段,可以使用小规模和特定任务的数据集,精确估计每个token的输出层。在这里主要考虑两种提前停止方式,即硬提前停止和软提前停止。

硬提前退出是最直接的方法,它通过计算每个标记的预测置信度,并设置一个阈值来决定是否提前退出。如果某个标记的预测置信度低于阈值,则不会进行提前退出。

软提前退出则是一种更加灵活的方法,它允许模型在生成文本时动态地调整每个标记的预测置信度阈值。具体来说,在软提前退出中,模型会根据当前已经生成的文本内容和上下文信息来动态地调整每个标记的预测置信度阈值。这种方法可以使得模型更加灵活地适应不同的文本生成任务,并且可以在不同任务之间共享已经学习到的知识。

比较

虽然效果上还完全比不上自回归,但一旦这个方向成熟,从效率上会彻底颠覆现在的GPT系列模型。

3bfd866a-e49d-11ed-ab56-dac502259ad0.png

引用

https://arxiv.org/pdf/2210.13304.pdf

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3172

    浏览量

    48711
  • GPT
    GPT
    +关注

    关注

    0

    文章

    351

    浏览量

    15313

原文标题:引用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种新的记忆多项式失真器

    一种新的记忆多项式失真器摘要:提出了一种新的记忆多项式失真器,对宽带功率放大器进行线性化.该方法主要利用
    发表于 08-08 09:52

    优化神经网络训练方法有哪些?

    优化神经网络训练方法有哪些?
    发表于 09-06 09:52

    介绍XLNet的原理及其与BERT的不同点

    1、什么是XLNet?  首先,XLNet是个类似于bert的模型,而不是个完全不同的模型。但它是个非常有前途和潜力的。总之,XLNet是一种广义的
    发表于 11-01 15:29

    研究人员提出一种基于哈希的二值网络训练方法 比当前方法的精度提高了3%

    程健研究员团队最近提出了一种基于哈希的二值网络训练方法,揭示了保持内积哈希和二值权重网络之间的紧密关系。
    的头像 发表于 02-08 15:38 5155次阅读

    微软在ICML 2019上提出了个全新的通用训练方法MASS

    专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的训练方法:屏蔽序列到序列训练(MASS: Masked Sequence to Sequence Pre-traini
    的头像 发表于 05-11 09:19 3466次阅读
    微软在ICML 2019上提出了<b class='flag-5'>一</b>个全新的通用<b class='flag-5'>预</b><b class='flag-5'>训练方法</b>MASS

    新的训练方法——MASS!MASS训练几大优势!

    专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的训练方法:屏蔽序列到序列训练(MASS: Masked Sequence to Sequence Pre-traini
    的头像 发表于 05-11 09:34 7061次阅读
    新的<b class='flag-5'>预</b><b class='flag-5'>训练方法</b>——MASS!MASS<b class='flag-5'>预</b><b class='flag-5'>训练</b>几大优势!

    检索增强型语言表征模型训练

    如果有一种训练方法可以 显式地 获取知识,如引用额外的大型外部文本语料库,在不增加模型大小或复杂性的情况下获得准确结果,会怎么样?
    的头像 发表于 09-27 14:50 1977次阅读

    一种侧重于学习情感特征的训练方法

    transformers编码表示)的基础上,提岀了一种侧重学习情感特征的训练方法。在目标领域的练阶段,利用情感词典改进了BERT的
    发表于 04-13 11:40 4次下载
    <b class='flag-5'>一种</b>侧重于学习情感特征的<b class='flag-5'>预</b><b class='flag-5'>训练方法</b>

    现代交互技术下的儿童语言表达训练方法

    现代交互技术下的儿童语言表达训练方法
    发表于 06-27 11:27 3次下载

    ELMER: 高效强大的回归训练文本生成模型

    每个单词都依赖于输入文本与之前生成的单词。回归生成模型只建模了前向的单词依赖关系,依次生成的结构也使得回归模型难以并行化。目前大部分
    的头像 发表于 03-13 10:39 1349次阅读

    基础模型监督训练的数据之谜:大量数据究竟是福还是祸?

    。然而,在监督训练中,是否数据越多越好?数据增广是否始终有效?华为诺亚方舟实验室与香港科技大学的研究团队近期发现: 主流监督
    的头像 发表于 07-24 16:55 507次阅读
    基础模型<b class='flag-5'>自</b>监督<b class='flag-5'>预</b><b class='flag-5'>训练</b>的数据之谜:大量数据究竟是福还是祸?

    基于生成模型的训练方法

    with Deep Generative Models,我认为是个挺强挺有趣的监督方面的工作。DreamTeacher 用于从训练的生成网络向目标图像 Backbone 进行知识蒸馏,作为
    的头像 发表于 08-11 09:38 1201次阅读
    基于生成模型的<b class='flag-5'>预</b><b class='flag-5'>训练方法</b>

    混合专家模型 (MoE)核心组件和训练方法介绍

    随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs
    的头像 发表于 01-13 09:37 1168次阅读
    混合专家模型 (MoE)核心组件和<b class='flag-5'>训练方法</b>介绍

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜筹。
    的头像 发表于 02-29 17:37 746次阅读

    ai大模型训练方法有哪些?

    AI大模型训练方法个复杂且不断发展的领域。以下是ai大模型训练方法: 数据预处理和增强 数据清洗:去除噪声和不完整的数据。 数据标准化:将数据缩放到统的范围。 数据增强:通过旋转
    的头像 发表于 07-16 10:11 1347次阅读