借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移-电子发烧友网

虽然目前传统的跨模态检索工作已取得了巨大的进展，但由于缺少低资源语言的标注数据，这些工作通常关注于高资源语言（比如英语），因此极大地限制了低资源语言在该领域的发展。

为了解决这一问题，作者针对跨语言跨模态检索任务（CCR）展开了研究，该任务旨在仅使用人工标注的视觉-源语言（如英语）语料库对模型进行训练，使其可以适用于其他目标语言（非英语）进行评估【如下图所示】。

传统跨模态检索&跨语言跨模态检索（CCR）

在这篇论文中，作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移，来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换，但是其准确性并不能得到保证，因此在翻译过程中将会引入大量的噪声，导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

然而之前的基于机器翻译的CCR工作大多忽略了这个问题，它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练，并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能，神经网络模型有很强的能力来拟合这种给定的(噪声)数据。

为了解决这个问题，作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题，该论文是首个关注于CCR任务中由机器翻译所引入噪声问题的工作。

方法

模型框架图

作者首先先引入了其「基线模型」

基线模型

视觉编码器：给定一个视频，使用预训练的2D CNN来提取视频特征序列，然后输入到Transformer块中，来增强帧间交互，最终得到一个视频特征向量

文本编码器：作者设计了一个双分支编码器，分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个Transformer block 和一个预训练的mBERT backbone，将源语言和目标语言分别输入到对应的分支中，得到对应的源语言句子特征和目标语言句子特征

将以上三个特征分别映射到多语言多模态空间中

作者使用了传统的跨模态检索任务中常用的triplet ranking loss进行约束：

噪声鲁棒的特征学习

基线模型只是简单的进行了跨语言跨模态对齐，并没有对噪声进行处理，接下来作者提出了多视图自蒸馏来生成pseudo-tagets以监督目标语言分支的学习

作者首先借助于cross-attention来生成一个相对干净的中间目标语言句子特征，通过将源语言token序列作为query，利用cross-attenion固有的性质，对目标语言token序列进行过滤。

cross-attention权重示例图

如图3所示，错误的单词(用红色标记)和源语言单词之间的注意权重被分配了低值。其过程表示如下：

多视角自蒸馏

作者引入了基于相似度视角和基于特征视角的自蒸馏损失

基于相似度视角的自蒸馏（Similarity-based view）：

给定（V, S, T），默认其两两之间互为匹配对，忽视翻译得到的目标语言句子T中所包含噪声的事实。对此，作者将cross-attention所生成的特征作为teacher，使用特征和视觉特征计算计算得到一个soft pseudo-targets作为目标语言分支的监督

soft pseudo-targets示例图

基于特征视角的自蒸馏（Feature-based view）：

通过l1范式实现特征蒸馏

循环语义一致性

受无监督机器翻译的启发，作者引入了循环语义一致性模块，提高源语言分支从噪声中提高原始语义信息的能力。增加源语言分支的鲁棒性。

语言无关特征学习

考虑到特定语言特征缺少跨语言迁移能力，作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器F作为判别器来分辨输入特征是源语言还是目标语言，判别器和特征编码器相互博弈：

训练和测试

最终的目标函数为：

测试时作者采用了目标语言和翻译的源语言（由于测试时只使用目标语言）加权和的方式：

实验

作者在三个跨语言跨模态数据集上进行了实验对比，其中为两个多语言视频文本检索数据集（VATEX和MSRVTT-CN），一个多语言图像文本检索（Multi30K）；其中MSRVTT-CN是作者对MSRVTT进行中文扩展得到的多语言数据集

在VATEX数据集上进行SOTA对比实验

MSRVTT-CN上性能对比

Multi30K上进行性能对比实验

鲁棒分析实验

为了进一步证明模型对抗翻译噪声的鲁棒能力，作者通过增加翻译次数以进一步增加训练数据的噪声程度，如图所示，在经过多次翻译后，基线模型的性能明显下降，而本文所提出的模型性能更加的稳定，验证了噪声鲁棒特征学习的有效性

将目标语言句子根据句子长度进行分组，作者假设越长的句子，翻译越困难，因此包含的噪声可能更多。结果表明，本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。

t-SNE可视化实验

作者随机从VATEX的中文测试集中随机选择20个样本，其中每个样本包含10个对应的英语翻译句子和一个对应的视频。如图所示，NRCCR的类内特征更加的紧凑，表明了模型更好的学习到了跨语言跨模态对齐。

消融实验

结果表明，使用两个视角，性能得到了提升，表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后，实现了额外的性能收益。此外，还表明了语言无关特征学习的重要性

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3638

浏览量
134426
C语言

C语言

+关注

关注
180

文章
7604

浏览量
136686

原文标题：ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

基于机器翻译增加的跨语言机器阅读理解算法

利用一个注意力机制的教师来将源语言的答案转移到目标语言的答案输出空间，从而进行深度级别的辅助以增强跨语言传输能力。同时，提出了一种改进的交叉

发表于 12-12 10:28 •579次阅读

基于<b class='flag-5'>机器翻译</b>增加的<b class='flag-5'>跨</b><b class='flag-5'>语言</b><b class='flag-5'>机器</b>阅读理解算法

机器翻译三大核心技术原理 | AI知识科普

的大脑翻译来实现基于规则的机器翻译？这里面涉及到中间语言，首先将源语言用中间语言进行描述，然后

发表于 07-06 10:30

机器翻译三大核心技术原理 | AI知识科普 2

，就可以得到目标语言的译文。04 机器翻译的基本应用机器翻译的基本应用可分为三大场景：信息获取为目的场景、信息发布为目的的场景、信息交流为目的场景。以信息获取为目的的应用场景，可能大家都比较熟悉，比如说

发表于 07-06 10:46

神经机器翻译的方法有哪些？

目前，神经机器翻译（NMT）已经成为在学术界和工业界最先进的机器翻译方法。最初的这种基于编码器-解码器架构的机器翻译系统都针对单个语言对进行

发表于 11-23 12:14

基于浅层句法信息的翻译实例获取方法研究

翻译实例库是基于实例的机器翻译系统的主要知识源。本文采用基于浅层句法分析的方法进行翻译实例的获取。首先根据浅层句法信息划分源语言和

发表于 11-24 15:32 •13次下载

浅谈人工智能中语言和机器翻译的重要性

机器翻译之所以重要的原因是在于语言对人类的重要性，《圣经·创世记》有个故事，当时人类联合起来兴建希望塔顶通天能传扬己名的巴别塔。为了阻止人类的计划，上帝让人类说不同的语言，使人类相互之间不能沟通，计划因此失败，人类自此各散东西。

发表于 03-29 16:24 •9356次阅读

机器翻译系统实现了自然语言处理的又一里程碑突破

微软机器翻译团队研究经理Arul Menezes表示，团队想要证明的是：当一种语言对（比如中-英）拥有较多的训练数据，且测试集中包含的是常见的大众类新闻词汇时，那么在人工智能技术的加持下，机器翻译系统的表现可以与人类媲美。

发表于 03-16 14:15 •5794次阅读

<b class='flag-5'>机器翻译</b>系统实现了自然<b class='flag-5'>语言</b>处理的又一里程碑突破

RNN基本原理和RNN种类与实例

这是一个delay模型，经过一段延迟，即把所有输入都读取后，在decoder中获取输入并输出一个序列。这个模型在机器翻译中使用较广泛，源语言输在入放入encoder，浓缩在状态信息中，生成目标

发表于 07-27 17:22 •3.8w次阅读

MIT和谷歌开发失传语言的机器翻译系统

注释数据库和让机器从中学习的技术让语言学习发生了革命性变化，这使得机器翻译变得越来越普遍。

发表于 07-17 10:56 •622次阅读

Facebook的AI翻译系统能翻译100种语言！

近日，Facebook 宣称已经开发出一种人工智能翻译系统，能够在 100 种语言之间进行精确翻译，而不需要像许多现有 AI 翻译那样先

发表于 10-30 09:25 •2897次阅读

人工智能翻译mRASP：可翻译32种语言

利用计算机把一种自然语言转变成另一种自然语言的过程就是机器翻译。 机器翻译对于信息时代下海量信息的捕获无疑具有重要作用，事实上，人们对于机器翻译

发表于 12-01 14:03 •3203次阅读

未来机器翻译会取代人工翻译吗

所谓机器翻译，就是利用计算机将一种自然语言（源语言）转换为另一种自然语言（目标语言）的过程。它是计算语言

发表于 12-29 10:12 •5020次阅读

多语言翻译新范式的工作：机器翻译界的BERT

思想就是打造“机器翻译界的BERT”，通过预训练技术再在具体语种上微调即可达到领先的翻译效果，其在32个语种上预训练出的统一模型在47个翻译测试集上取得了全面显著的提升。目录 机器翻译

发表于 03-31 17:24 •2981次阅读

大语言模型的多语言机器翻译能力分析

以ChatGPT为代表的大语言模型（Large Language Models, LLM）在机器翻译（Machine Translation, MT）任务上展现出了惊人的潜力。

发表于 05-17 09:56 •2001次阅读

机器翻译研究进展

机器翻译使用计算机将一种语言翻译成另一种语言，具有低成本、高效率和高翻译质量等优势，在语音翻译、

发表于 07-06 11:19 •800次阅读