0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

帮助弱者让你变得更强:利用多任务学习提升非自回归翻译质量

深度学习自然语言处理 来源:南大NLP 作者:南大NLP 2022-11-09 16:14 次阅读

01

研究动机

目前最先进的神经机器翻译模型主要是自回归(autoregressive, AR)[1][2]模型,即在解码时从左向右依次生成目标端单词。尽管具有很强的性能,但这种顺序解码会导致较高的解码时延,在效率方面不令人满意。相比之下,非自回归(non-autoregressive, NAR)模型[3]使用更加高效的并行解码,在解码时同时生成所有的目标端单词。为此,NAR模型需要对目标端引入条件独立假设。然而,这一假设无法在概率上准确地描述人类语言数据中的多模态现象(或多样性现象,即一条源端句存在多个正确的翻译结果)。这为NAR模型带来了严峻的挑战,因为条件独立假设与传统的极大似然估计(Maximum Likelihood Estimate, MLE)训练方式无法为NAR模型提供足够信息量的学习信号和梯度。因此,NAR模型经常产生较差的神经表示,尤其是在解码器(Decoder)部分。而由于解码器部分直接控制生成,从而导致了NAR模型显著的性能下降。为了提升NAR模型的性能,大多数先前的研究旨在使用更多的条件信息来改进目标端依赖关系的建模(GLAT[4], CMLM[5])。我们认为,这些研究工作相当于在不改变NAR模型概率框架的前提下提供更好的替代学习信号。并且,这些工作中的大部分需要对模型结构进行特定的修改。

沿着这个思路,我们希望能够为NAR模型提供更具信息量的学习信号,以便更好地捕获目标端依赖。同时,最好可以无需对模型结构进行特定的修改,适配多种不同的NAR模型。因此,在本文中我们提出了一种简单且有效的多任务学习框架。我们引入了一系列解码能力较弱的AR Decoder来辅助NAR模型训练。随着弱AR Decoder的训练,NAR模型的隐层表示中将包含更多的上下文和依赖信息,继而提高了NAR模型的解码性能。同时,我们的方法是即插即用的,且对NAR模型的结构没有特定的要求。并且我们引入的AR Decoder仅在训练阶段使用,因此没有带来额外的解码开销。

02

贡献

1、我们提出了一个简单有效的多任务学习框架,使NAR模型隐层表示包含更丰富的上下文和依赖信息。并且我们的方法无需对模型结构进行特定的修改,适配多种NAR模型。

2、一系列AR Decoder的引入带来了较大的训练开销。为此我们提出了两种降低训练开销的方案,在几乎不损失性能的前提下显著降低了参数量和训练时间。

3、在多个数据集上的实验结果表明,我们的方法能够为不同的NAR模型带来显著的提升。当使用束搜索解码时,我们的模型在所有数据集上均优于强大的Transformer模型,同时不引入额外的解码开销。

03

解决方案

3.1、模型结构

我们的模型结构如图1所示。对于每个NAR Decoder层,我们都引入了一个辅助的弱AR Decoder(每个AR Decoder仅包含1层Transformer Layer)。我们令这些AR Decoder基于对应的NAR隐层表示进行解码,即令NAR隐层表示作为AR Decoder Cross-Attention的Key和Value。由于AR Decoder的解码能力较弱,因此很难自行捕捉目标句的依赖关系。只有当其对应的NAR隐层表示中的信息足够充分,AR Decoder才能够正确地解码。因此,AR Decoder为NAR模型带来了新的训练信号,迫使NAR Decoder变得更强,在隐层表示中包含更多的上下文和依赖信息来支持AR Decoder的解码。在这个过程中,NAR提升了自己的表示能力,从而在实际解码时获得了更好的表现。

9a185f60-5f58-11ed-8abf-dac502259ad0.png

图1:我们的方法示意图

3.2、训练目标

我们的训练目标如下式所示

9a3715d6-5f58-11ed-8abf-dac502259ad0.png

对于NAR部分,我们保持NAR模型的原始训练目标不变。如对于CTC模型,我们使用CTC Loss作为NAR的损失函数。对于AR部分,我们使用交叉熵损失进行训练,并将所有AR Decoder的损失相加。最终的损失函数是两部分的加权和,权重是超参数。

3.3、Glancing Training训练策略

Glancing Training是一种有效提升NAR模型性能的训练策略[4]。我们在我们的方法中应用了Glancing Training。具体来说,在训练时根据模型当前的解码质量,随机采样参考句中的token作为NAR Decoder的输入。模型当前解码质量越差则采样越多,反之亦然。然后令AR Decoder基于NAR隐层表示进行解码。

3.4、降低解码开销

我们为每层NAR Decoder都配置了一个AR Decoder,这可能会带来较大的训练开销。为此,我们从模型参数量和训练时间的角度,提出了两种降低训练开销的方案。

Parameter Sharing:令所有的AR Decoder之间共享参数,降低参数量;

Layer Dropout:每个训练步随机选择一半数量的AR Decoder进行训练,降低训练时间。

3.5、解码过程

在解码时,我们不使用AR Decoder,仅使用NAR模型自身进行解码。因此,我们的方法没有引入额外的解码开销。

04

实验

我们在机器翻译领域目前最广泛使用的数据集上进行了实验:WMT14英德(4.5M语言对)、WMT16英罗(610K语言对)、IWSLT14德英(160K语言对)。我们遵循Gu和Kong[6]的工作中的数据预处理方式,并且使用了BLEU[9]指标作为机器翻译质量评价指标。为了缓解数据集中多模态现象导致的训练困难,我们对所有数据集使用了知识蒸馏技术进行处理[3]。

4.1、实验结果

我们的方法可以对不同类型的NAR模型带来提升。

我们使用了Vanilla-NAR[3]和CTC[7]作为我们的基线模型,并在基线模型上应用我们的方法,实验结果如表1所示。可以看到,我们的方法一致且显著地提高了每个基线模型在每个语言对上的翻译质量。这说明了我们方法的通用性。

表1:对不同的基线模型应用我们的方法

9a494d1e-5f58-11ed-8abf-dac502259ad0.png

与其他的NAR模型相比,我们的方法获得了更好的结果。

我们选用CTC模型应用我们的方法作为我们的模型,并与其他强大的NAR模型进行比较,实验结果如表2所示。可以看到,我们的方法显著提高了翻译质量,并优于其他强大的基线模型。此外,当应用Glancing Training技术后,我们的方法可以带来更大程度的提升。

与采取迭代解码的模型(CMLM)相比,我们的方法仅使用单步解码,具备更快的解码速度,并在除了WMT14英德之外的所有语言对上获得了更好的性能。

Hao等人[8]的工作与我们的工作相关,都使用了多任务学习框架。我们在CTC模型上复现了他们的方法(CTC+MTL)。实验结果表明我们的方法可以为模型带来更明显的提升。

表2:与其他强大的NAR模型比较。9a5b6e7c-5f58-11ed-8abf-dac502259ad0.png代表使用k轮迭代解码

9a70d4a6-5f58-11ed-8abf-dac502259ad0.png

4.2、实验分析

较弱的AR Decoder是否有必要?

在我们的方法中,AR Decoder的解码能力需要足够弱,由此强迫NAR Decoder变得更强。我们对这一点进行了验证。我们使用不同层数的AR Decoder进行实验(1、3、6层),实验结果如图2所示。每种深度的AR Decoder都可以为NAR模型带来增益,但是随着AR Decoder层数的增加,AR Decoder解码能力增强,为NAR模型带来的增益也在逐渐降低。这也验证了我们的动机:一个较弱的AR Decoder能够使NAR Decoder包含更多有用的信息。

9a946d9e-5f58-11ed-8abf-dac502259ad0.png

图2:不同层数的AR Decoder为模型带来了不同程度的增益

关于训练开销的消融实验。

我们在IWSLT14德英数据集上评估了我们提出的降低训练开销策略的效果。如表3所示,在使用了Param Sharing和Layer Dropout两种策略后,参数量(83.8M vs 55.3M)和训练时间(31.2h vs 19.4h)均得到了显著的降低,同时保持模型性能几乎没有变化

表3:两种降低训练开销策略的效果评估

9aaa27d8-5f58-11ed-8abf-dac502259ad0.png

我们的方法使模型能够更好地解码长句。

为了进一步分析NAR模型在生成不同长度目标端句时的表现差异,我们在WMT14英德数据集的测试集上进行了实验,将目标端句按照长度分成不同的区间。如表4所示,随着句子长度的增加,我们的模型和Transformer之间的差距在逐渐降低。当目标端句长度大于60时,我们的模型能够超过Transformer的解码性能。在解码更长的句子时,模型需要处理更复杂的上下文关联。我们推测我们提出的多任务学习方法显著改善了NAR隐藏状态下包含的上下文和依赖信息,因此在长句子翻译中具有更好的性能。

表4:生成不同长度目标端句时的性能差异

9ac170e6-5f58-11ed-8abf-dac502259ad0.png

我们的方法使模型减少了重复生成。

由于数据集中的多模态现象,NAR模型会出现重复生成的翻译错误。表5展示了在应用我们的方法前后,NAR模型出现重复生成现象的比率。可以看到,我们的方法显著降低了重复单词的出现频率,使NAR模型的生成质量更好。值得注意的是,尽管CTC模型本身已经能够产生很少的重复生成,我们的方法依然可以进一步降低重复生成的比率。

表5:重复生成的比率

9adb01aa-5f58-11ed-8abf-dac502259ad0.png

不使用知识蒸馏技术时的性能表现。

尽管知识蒸馏是一种常用的约减多模态现象的手段,但它限制了NAR模型在AR教师模型下的性能,同时构建教师模型也需要额外的开销。为了验证我们的方法在原始数据场景中的有效性,我们在WMT14和IWSLT14数据集上进行了实验。如表6所示,我们的方法可以为基线模型(CTC)带来非常显著的提升,进一步缩小了与Transformer模型的差距。

表6:不使用知识蒸馏的实验结果

9afd0700-5f58-11ed-8abf-dac502259ad0.png

我们的方法相对于其他多任务学习方法的优势。

Hao等人[8]的工作也使用了多任务学习框架,但我们的方法能够为NAR模型带来更显著的提升。我们认为我们的方法在多任务学习模块(即AR Decoder)的位置和容量上更有优势。

对于AR Decoder的位置,我们认为Decoder决定生成过程,因此将AR Decoder部署于NAR Decoder上能够更直接和显式地改善NAR的生成过程,而Hao等人的工作是部署于NAR Encoder上的。

对于AR Decoder的容量,我们认为AR Decoder应尽可能弱,这样AR Decoder无法自行对目标端句进行建模,从而迫使NAR Decoder隐层表示包含更多的上下文和依赖信息。而Hao等人的工作使用的标准AR Decoder,对NAR隐层表示的要求更低,因此为NAR带来的提升更少。

05

总结

在本文中,我们为NAR模型提出了一个多任务学习框架,引入了一系列弱AR解码器辅助训练NAR模型。随着弱AR解码器的训练,NAR隐藏状态将包含更多的上下文和依赖信息,从而提高NAR模型的性能。在多个数据集上的实验表明,我们的方法可以显著且一致地提高翻译质量。当使用束搜索解码时,我们基于CTC的NAR模型在所有基准测试上都优于强大的Transformer,同时不引入额外的解码开销。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1143

    浏览量

    40719
  • Ar
    Ar
    +关注

    关注

    24

    文章

    5096

    浏览量

    169473
  • 模型
    +关注

    关注

    1

    文章

    3229

    浏览量

    48810

原文标题:EMNLP'22 | 帮助弱者让你变得更强:利用多任务学习提升非自回归翻译质量

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「大模型启示录」阅读体验】对本书的初印象

    很高兴能够申请到《大模型启示录》一书,作为一名在读大学生,我深感荣幸。在日常生活中,人工智能(AI)的应用已经变得无处不在,它不仅帮助我们完成一些简单的文本归纳任务,还能在代码调试中指出错误,甚至
    发表于 12-16 14:05

    如何利用AI进行提升自我呢?

    利用AI进行学习是一个高效且富有创新性的过程。以下是一些建议,帮助你充分利用AI进行学习: 选择适合的AI
    的头像 发表于 07-19 10:46 538次阅读

    超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评

    随着AI工具的不断增多,各家模型的能力也日益提升,现在无论哪款大模型几乎都能够处理各种翻译难题。在AI浪潮当下,越来越多的论文和前沿信息需要快速翻译和解读,依赖传统的翻译工具依旧面临“
    的头像 发表于 07-14 08:04 128次阅读
    超ChatGPT-4o,国产大模型竟然更懂<b class='flag-5'>翻译</b>,8款大模型深度测评|AI 横评

    不同类型神经网络在回归任务中的应用

    神经网络是一种强大的机器学习模型,可以用于各种任务,包括回归。在本文中,我们将讨论不同类型的神经网络,以及它们在回归任务中的应用。 基本的神
    的头像 发表于 07-11 10:27 1250次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习算法原理,包括线性
    的头像 发表于 07-02 11:25 991次阅读

    研究人员利用人工智能提升超透镜相机的图像质量

    研究人员利用深度学习技术提高了直接集成在 CMOS 成像芯片上的超透镜相机(左)的图像质量。超透镜利用 1000 纳米高的圆柱形氮化硅纳米柱阵列(右图)操纵光线。 研究人员
    的头像 发表于 06-11 06:34 374次阅读
    研究人员<b class='flag-5'>利用</b>人工智能<b class='flag-5'>提升</b>超透镜相机的图像<b class='flag-5'>质量</b>

    亚马逊推出“Project PI”提升商品质量

    近日,亚马逊为提升顾客满意度,推出了创新性的“Project PI”(侦探项目)。该项目利用先进的生成式AI和计算机视觉技术,为商品质量把控提供了强有力的支持。
    的头像 发表于 06-06 09:20 352次阅读

    开源项目!设计一款智能手语翻译眼镜

    手语翻译的依赖。 这款眼镜的设计既实用又低调,方便日常佩戴,能够无缝融入用户的日常生活中,使用者能够轻松地与不懂手语的人士沟通。它的亮点在于利用人工智能技术检测手势并进行实时翻译,不
    发表于 05-20 15:59

    【大语言模型:原理与工程实践】核心技术综述

    的具体需求,这通常需要较少量的标注数据。 多任务学习和迁移学习: LLMs利用在预训练中积累的知识,可以通过迁移学习在相关
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    Transformer架构,利用注意力机制对文本进行编码,通过预训练、有监督微调和强化学习等阶段,不断提升性能,展现出强大的语言理解和生成能力。 大语言模型的涌现能力,是指随着模型
    发表于 05-04 23:55

    深入探讨线性回归与柏松回归

    或许我们所有人都会学习的第一个机器学习算法就是线性回归算法,它无疑是最基本且被广泛使用的技术之一——尤其是在预测分析方面。
    的头像 发表于 03-18 14:06 653次阅读
    深入探讨线性<b class='flag-5'>回归</b>与柏松<b class='flag-5'>回归</b>

    提升通讯质量:了解手机信号放大器的原理、选择与安装?

    提升通讯质量:了解手机信号放大器的原理、选择与安装?|深圳特信电子有限公司随着通信技术的不断发展,手机信号放大器作为一种重要的设备,可以帮助用户提升手机信号接收
    发表于 03-13 09:03

    利用NVIDIA产品技术组合提升用户体验

    本案例通过利用NVIDIA TensorRT-LLM加速指令识别深度学习模型,并借助NVIDIA Triton推理服务器在NVIDIA V100 GPU上进行高效部署,帮助必优科技的文档智能体
    的头像 发表于 01-17 09:30 687次阅读

    请教:有SPC560B的多任务实时系统的例程吗(freertos)

    请教:有SPC560B的多任务实时系统的例程吗(freertos)
    发表于 01-15 17:04

    如何从零开始构建深度学习项目?(如何启动一个深度学习项目)

    性能重大提升的背后往往是模型设计的改变。不过有些时候对模型进行微调也可以提升机器学习的性能。最终的判断可能会取决于对相应任务的基准测试结果
    发表于 01-11 10:49 302次阅读
    如何从零开始构建深度<b class='flag-5'>学习</b>项目?(如何启动一个深度<b class='flag-5'>学习</b>项目)