0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大语言模型的多语言机器翻译能力分析

深度学习自然语言处理 来源:南大NLP 2023-05-17 09:56 次阅读

01

研究动机

以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。通过情景学习(In-Context Learning,ICL),大语言模型可以根据任务示例和任务指令,在不更新模型参数的情况下,完成特定下游任务。然而,值得注意的是,这些大语言模型主要基于大规模的数据进行语言模型任务的学习,并没有在大规模多语言翻译数据上训练过,我们非常好奇于:(1)大语言模型的多语言机器翻译能力如何?(2)哪些因素会影响大语言模型的翻译表现?为了探究这些问题,本文评测了XGLM[1],OPT[2],BLOOMZ[3],ChatGPT[4]等众多热门大语言模型在百余种语言上的翻译能力,并且分析了在情景学习中各种因素对翻译效果的影响。

02

贡献

1. 本文在102种语言以及202个以英文为核心的翻译方向上全面地评测了包括ChatGPT在内的热门大语言模型的多语言机器翻译能力。

2. 本文系统地报告了一系列大语言模型以及两个有监督基线的翻译表现,为后续大语言模型和多语言机器翻译研究工作提供了有力参照。

3. 本文还发现了在机器翻译任务上大语言模型展现出了一些新的工作模式。

03

实验设定

为了全面地衡量大语言模型的多语言机器翻译能力,本文选用Flores-101数据集[5]进行实验。在应用大语言模型进行情景学习的过程中,本文设置任务示例数目为8,任务指令模版为“=”,其中“”和“”分别为源句和目标句对应的占位符。此外,本文也报告了M2M-100-12B[6]以及NLLB-1.3B[7]这两个强大的传统有监督模型的多语言翻译表现作为参照。

04

大语言模型多语言机器翻译能力评测

在系统地评测大语言模型的多语言翻译能力后,本文得出了以下主要结论:

1. 在评测的四种大语言模型中,ChatGPT展现了最好的多语言机器翻译效果:相比于只经过预训练(pre-traing)的XGLM和OPT,经过指令微调(instruction-tuning)的BLOOMZ和ChatGPT展现了更好的翻译表现(表格1)。值得注意的是,BLOOMZ在七组翻译方向上超过了有监督基线模型,而ChatGPT在所有被评测的大语言模型中取得了最好的综合翻译表现。

2. 大语言模型翻译其他语言到英语的表现往往比翻译英语到其他语言的表现要好:此前的研究发现大语言模型在将其他语言翻译到英语时往往有很好的表现,而在将英语翻译到其他语言时则表现较差。本文发现XGLM,OPT,BLOOMZ,ChatGPT也都存在这种偏好。但是,值得注意的是,ChatGPT已经极大地改善了这种倾向。

表格 1 不同模型在各语系上的平均BLEU分数

8a31643c-f3de-11ed-90ce-dac502259ad0.png

3. 在大部分语言上,尤其是低资源语言,大语言模型的翻译效果仍然落后于强大的有监督基线模型:图1中画出来了ChatGPT和NLLB模型在各个语言上的翻译表现,可以看出在图片的左半部分,ChatGPT可以取得与NLLB相似的性能,而在图片的右半部分,在低资源语言翻译上,ChatGPT仍然远远落后于传统的有监督基线模型。

8a3a66a4-f3de-11ed-90ce-dac502259ad0.png

图 1 ChatGPT和NLLB在各语言上的翻译表现对比

4. 指令微调过的大语言模型仍然可以从任务示例中受益:本文对比了BLOOMZ和ChatGPT这两个经过指令微调的模型在任务样例数目分别为0和8时的翻译表现(图2),可以看出即使对于指令微调过的模型,提供任务示例依然可以进一步提升其翻译能力。这也是本文在评测大语言模型翻译能力同时提供任务示例和任务指令的原因。

8a4223a8-f3de-11ed-90ce-dac502259ad0.png

图 2 BLOOMZ和ChatGPT在给定不同数目的任务示例时的翻译表现对比

5. 在公开数据上评测大语言模型有数据泄漏的风险:为了考察数据泄漏对评测结果的影响,本文基于近期的英语新闻,人工构建了一个中-英-德三语无泄漏机器翻译测试集。在该测试集上的测试结果显示:XGLM和OPT在新标注测试集上取得了与公开测试集上相似的性能,而ChatGPT在英语-德语翻译上性能出现大幅下降,BLOOMZ更是在四个测试方向上都出现性能下降的问题(图3)。这说明BLOOMZ在Flores-101上取得很好的表现很可能是数据泄漏导致的。

8a4b142c-f3de-11ed-90ce-dac502259ad0.png

图 3 不同模型在Flores-101测试集和无泄漏测试集上的翻译表现

05

大语言模型机器翻译能力影响因素分析

为了更好地理解大语言模型如何通过情景学习中完成翻译任务,本文以XGLM为例分析了情景学习中诸多因素对翻译效果的影响。以下介绍本文在关于任务指令和任务示例两方面的相关发现:

1. 与任务指令相关的发现:

大语言模型在下游任务上的良好表现依赖于精心设计的指令:本文发现大语言模型在下游任务上的表现会随着指令内容的不同而剧烈变化。并且在不同翻译方向上,最好的指令也不同(表格2)在这些指令中,“=”取得了最高的平均BLEU分数。而“[SRC]: [TGT]: ”的效果是最差的。这说明在情景学习中,任务指令起着十分重要的作用。

即使是不合理的指令也可以引导大语言模型完成翻译任务:直觉上,人们认为大语言模型理解了任务指令所以能够完成指定的下游任务。但是本文发现,在情景学习时使用任务无关的指令,大语言模型依然可以完成目标任务。例如,面对指令“ can be summarized as ”,模型依然可以生成翻译而不是生成摘要。这样的发现说明,以往的研究可能误解了任务指令在情景学习中的作用。

表格 2 使用不同任务指令对翻译效果的影响

8a561f70-f3de-11ed-90ce-dac502259ad0.png

2. 关于任务示例的发现

根据语义选择示例与随机选择示例效果相当:为了研究任务示例对情景学习效果的影响,本文对比了包括随机检索、稀疏检索、稠密检索在内的多种任务示例选择策略(图4)。实验结果表明当任务样例数目从1增加到8时,BLEU分数会显著提升。但是进一步增加样例数目,BLEU分数基本变化不大,甚至会开始下降。相比于根据语义进行选择,随机选择也可以取得相似的效果。并且即使根据目标句进行检索,也没有展现出明显的优势。这些实验结果表明,翻译任务示例可以帮助大语言模型理解翻译任务,但是大语言模型可能很难从语义相关的翻译示例中直接获取有帮助的翻译知识。

8a5e21b6-f3de-11ed-90ce-dac502259ad0.png

图4使用不同任务示例选择策略对翻译效果的影响

翻译任务示例帮助大语言模型理解翻译任务的核心特征:为了理解翻译任务示例如何影响大语言模型理解翻译任务,本文观察了大语言模型在不同任务示例下的翻译表现(表格3)。当使用不匹配的翻译句对作为任务样例时,大语言模型完全无法进行翻译。这说明模型从翻译任务示例中学习到需要保证源句和目标句语义一致。当使用词级别或者段落级别翻译对作为翻译示例时,模型的翻译质量显著下降,这说明任务样例的粒度也很重要。当使用重复的翻译句对作为翻译样例时,模型的翻译质量也会下降,这说明保持任务示例的多样性也是保证模型下游任务性能的必要条件。总体来说,这些对比实验的结果说明大语言在情景学习中,通过任务样例理解了翻译任务的核心需求。

表格 3 在给定不同任务示例时XGLM的翻译表现

8a652eac-f3de-11ed-90ce-dac502259ad0.png

使用跨语言任务示例也可能带来翻译性能提升:本文发现在机器翻译的情景学习中,使用不同语言对的翻译句对作为任务示例并不一定会导致翻译质量下降。例如,在进行德语-英语翻译时,如果使用跨语言任务示例会导致翻译质量下降;而在进行汉语-英语翻译时,使用跨语言任务示例则可以大幅提升翻译性能(图5)。这显示了跨语言任务示例在情景学习中的潜在用途。

8a6a597c-f3de-11ed-90ce-dac502259ad0.png

图 5 使用跨语言翻译任务示例的效果

在上下文末尾位置的任务示例对于大语言模型的行为有着更大的影响:本文发现使用与目标翻译方向相反的翻译句对作为任务示例时,大语言模型完全无法进行正确的翻译。利用这种特性,本文考察了在上下文的不同位置的任务示例对大语言模型的翻译行为的影响程度。表格4中的实验结果表明,在使用相同数量的反向任务示例时,反向任务示例出现在上下文的末尾位置时,大语言模型的翻译表现会更差。这说明在末尾位置的任务示例对于大语言模型的行为有着更大的影响。

表格 4 反转任务示例翻译方向对翻译效果的影响

8a776126-f3de-11ed-90ce-dac502259ad0.png

06

总结

本文系统地评测了包括ChatGPT在内的一系列大语言模型在102种语言,202个以英文为核心的翻译方向上的多语言机器翻译能力,探究了使用大语言模型进行多语言机器翻译的优势与挑战。我们发现即使是最强的大语言模型(ChatGPT),仍然在83.33%的翻译方向上落后于强大的有监督基线模型(NLLB)。经过进一步的分析实验,我们发现在机器翻译任务上,大语言模型展现出了一些新的工作模式:例如,在情景学习时,任务指令的语义可以被大语言模型所忽视;使用跨语言任务示例可以提升低资源机器翻译效果。更重要的是,我们发现BLOOMZ在公开数据集上的表现是被高估的,而如何公平地比较不同语言模型的能力将是大语言模型时代的一个重要话题





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Opt
    Opt
    +关注

    关注

    2

    文章

    18

    浏览量

    15116
  • 语言模型
    +关注

    关注

    0

    文章

    520

    浏览量

    10268
  • ChatGPT
    +关注

    关注

    29

    文章

    1558

    浏览量

    7593

原文标题:大语言模型的多语言机器翻译能力分析

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    多语言开发的流程详解

    现在不少应用都是要求有多语言切换的, 使用QT开发上位机也同样需要做多语言功能, 不过QT是自带了多语言翻译功能, 可以很方便的借助原生工具进行, 下面就简单来看看
    的头像 发表于 11-30 09:08 1101次阅读

    基于机器翻译增加的跨语言机器阅读理解算法

    近日,阿里云人工智能平台 PAI 与华南理工大学朱金辉教授团队、达摩院自然语言处理团队合作在自然语言处理顶级会议 EMNLP2023 上发表基于机器翻译增加的跨语言
    的头像 发表于 12-12 10:28 579次阅读
    基于<b class='flag-5'>机器翻译</b>增加的跨<b class='flag-5'>语言</b><b class='flag-5'>机器</b>阅读理解算法

    机器翻译三大核心技术原理 | AI知识科普

    并不在同一体系下,句法顺序有很大程度上的出入,直接拼接起来的翻译结果,效果往往并不理想。于是科研人员提出了第二个规则机器翻译的方法,引用语言学的相关知识,对源语言的句子进行句法的
    发表于 07-06 10:30

    神经机器翻译的方法有哪些?

    之间的翻译,也就是通过只训练一个模型就能够支持在多个语言之间的翻译。尽管目前最流行的Transformer模型已经大大推动了
    发表于 11-23 12:14

    SoC多语言协同验证平台技术研究

    SoC基于IP设计的特点使验证项目中多语言VIP(Verification IP)协同验证的需求不断增加,给验证工作带来了很大的挑战。为了解决多语言VIP在SoC验证环境灵活重用的问题。提出了一种
    发表于 12-31 09:25 12次下载

    谷歌再次发布BERT的多语言模型和中文模型

    为了评估这些系统,我们使用了XNLI dataset,它是MultiNLI的一个版本,其中dev集和test集已经(由人类)翻译成15种语言。需要注意的是,训练集是机器翻译的(我们使用的是XNLI提供的
    的头像 发表于 11-08 09:50 6055次阅读

    阿里宣布完成全球首个多语言实时翻译的电商直播

    今日,阿里宣布完成全球首个多语言实时翻译的电商直播,该直播实现了将中文直播内容精准翻译成英语、俄语、西班牙语等语言
    的头像 发表于 10-27 11:39 1956次阅读

    人工智能翻译mRASP:可翻译32种语言

    包括以了解信息或以交流信息为目的的机器翻译多语言翻译机器翻译需要面临的一大技术现实。其中,一个理想的模型是一个统一的具备多种
    的头像 发表于 12-01 14:03 3203次阅读
    人工智能<b class='flag-5'>翻译</b>mRASP:可<b class='flag-5'>翻译</b>32种<b class='flag-5'>语言</b>

    多语言翻译新范式的工作:机器翻译界的BERT

    今天给大家介绍EMNLP2020的一篇关于多语言翻译新范式的工作multilingual Random Aligned Substitution Pre-training (mRASP)[1],核心
    的头像 发表于 03-31 17:24 2981次阅读
    <b class='flag-5'>多语言</b><b class='flag-5'>翻译</b>新范式的工作:<b class='flag-5'>机器翻译</b>界的BERT

    Multilingual多语言预训练语言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM预训练多语言模型,整体思路基于BERT,并提出了针对多语言预训练的3个优化任务。后续很多
    的头像 发表于 05-05 15:23 2971次阅读

    多语言任务在内的多种NLP任务实现

    WeLM是一个百亿级别的中文模型,能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务,并具备记忆能力、自我纠正和检查
    发表于 10-13 11:52 624次阅读

    借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移

    然而之前的基于机器翻译的CCR工作大多忽略了这个问题,它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大
    的头像 发表于 10-14 14:59 858次阅读

    基于LLaMA的多语言数学推理大模型

    MathOctopus在多语言数学推理任务中,表现出了强大的性能。MathOctopus-7B 可以将LLmMA2-7B在MGSM不同语言上的平均表现从22.6%提升到40.0%。更进一步,MathOctopus-13B也获得了比ChatGPT更好的性能。
    发表于 11-08 10:37 476次阅读
    基于LLaMA的<b class='flag-5'>多语言</b>数学推理大<b class='flag-5'>模型</b>

    语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs在处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 607次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLMs)如何处理<b class='flag-5'>多语言</b>输入问题

    ChatGPT 的多语言支持特点

    )技术迎来了巨大的挑战和机遇。ChatGPT,作为一个领先的语言模型,其多语言支持的特点成为了它在众多应用场景中不可或缺的优势。 1. 多语言理解
    的头像 发表于 10-25 17:30 767次阅读