0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Meta开源NLLB翻译模型,支持200种语言互译

深度学习自然语言处理 来源:量子位 作者:量子位 2022-07-21 11:08 次阅读

这个翻译模型,不仅支持200+语言之间任意两两互译,还是开源的。Meta AI在发布开源大型预训练模型OPT之后,再次发布最新成果NLLB。

NLLB的全称为No Language Left Behind,如果套用某著名电影,可以翻译成“一个语言都不能少”。

caaf98f6-0818-11ed-ba43-dac502259ad0.png

这其中,中文分为简体繁体和粤语三种,而除了中英法日语等常用语种外,还包括了许多小众语言。

cace7ece-0818-11ed-ba43-dac502259ad0.png

▲NLLB支持的部分语种截图

由于这些语言之间都可以两两互译,所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

一位用粤语的靓仔看到这里直接喜大普奔。

caf5c984-0818-11ed-ba43-dac502259ad0.png

要知道,此前的众多语言模型,要么不支持这么多种语言,要么不能直接完成小众语言之间的两两翻译。

有了NLLB,世界各地的人都有机会以自己的母语访问和分享网络内容;并且无论他们的语言偏好如何,都可以与他人在任意地方沟通。

Meta称,他们计划先将这个技术应用于Facebook和Instagram,以提升这些平台上小众语言的计算机翻译水平。

同时,这也是他们元宇宙计划的一部分。而这项成果正式开源的消息,也受到广受好评。

cb0a026e-0818-11ed-ba43-dac502259ad0.png

除了AI业内关心他们如何支持语料稀缺的冷门语言,以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为,语言障碍正是全球互联网用户数量进一步增长的关键。

cb1ccff2-0818-11ed-ba43-dac502259ad0.png

在Hacker News论坛上,大家也对这个AI议论纷纷。一个前端开发者说,自己的母语就是非常小众的那种,仅有约一百万人使用。

这位开发者此前从未见过对这种语言好用的AI翻译软件,而NLLB给他带来了希望。

不过他认为,连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时,都常常会出问题,所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

cb2b5ad6-0818-11ed-ba43-dac502259ad0.png

有网友给这位开发者支招儿,告诉他Meta开放了有支持翻译的儿童书籍,可以去看看翻译效果。

cb3de7e6-0818-11ed-ba43-dac502259ad0.png

还有人补充道,许多小众语言有许多不同的自然变体,更偏于口语化,而没有特定书面化标准,可以用多种文字书写。所以,如何对小众语言进行标准化是个棘手的问题。

cb4f5634-0818-11ed-ba43-dac502259ad0.png

怎么支持语料少的语言

这个掌握了200多种语言的AI模型是怎么训练的?

据Meta AI介绍,他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。

其一是为语料少的语言自动构建高质量的数据集。研究者建立了一个多对多的多语言数据集Flores-200。专业的真人翻译员和审稿人采用统一的标准,来保质保量地建立这个数据集。

首先,译员们翻译Flores-200的全部句子,并检查;然后,独立审查员小组开始审查翻译质量,根据他们的评估将一些译文送去进行后期编辑。

cb5fb39e-0818-11ed-ba43-dac502259ad0.png

如果质量评估表明,质量在90%以上,则认为该语言可以被纳入Flores-200中。

cb6be876-0818-11ed-ba43-dac502259ad0.png

最终,Flores-200中包含了842篇不同文章的翻译,共3001个句子。

其二,是对200种语言建模:研究者开发了一个语言识别系统LID(language identification systems),标记出某段文字是用哪种语言写的。

用监督方式训练的LID模型在看似流畅的句子上,可能难以识别处不正确语法和不完整的字符串。

此外,LID很容易学习到没有意义的相关性。所以,在这个LID开发的不同阶段,工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

为了对小众语言进行较好的建模,研究者开发了一种“学生-教师挖掘法”(Student-Teacher Mining)该方法的内容是:让一个大规模的多语言句子编码器的教师模型,与几个语料少的学生模型相互学习整合。

cb7e88fa-0818-11ed-ba43-dac502259ad0.png

这样能够在不和多语料语言争夺容量的情况下,丰富小众语言的训练数据,保持了多语言嵌入空间的兼容性,避免从头开始重新训练整个模型。

其三,是将一个人工翻译的评估基准:FLORES的覆盖范围扩大2倍,来评估每一种语言的翻译质量。虽然自动评分是推动该研究的重要工具,但人工评价对于翻译质量的评估也是必不可少的。

通过整合AI自动评分和人工评估,能够广泛量化翻译水平,便于提升整理的翻译质量。

为了让更多程序员和工程师们能够使用或完善NLLB,Meta开放了所有的评估基准(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和训练代码,以及最终的NLLB-200模型和其小型提炼版本等。

Meta AI已将这些内容开源,就在fariseq仓库里面,感兴趣的小伙伴们可以去看看。

论文地址:
https://research.facebook.com/publications/no-language-left-behind/
开源地址:
https://github.com/facebookresearch/fairseq/tree/nllb

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    500

    浏览量

    10236
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14862
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24617

原文标题:机器翻译做到头了?Meta开源NLLB翻译模型,支持200种语言互译

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    神经机器翻译的方法有哪些?

    之间的翻译,也就是通过只训练一个模型就能够支持在多个语言之间的翻译。尽管目前最流行的Transformer
    发表于 11-23 12:14

    紫米电子推出ZMI旅行助手Z1,支持16语言互译,实现交流无障碍沟通

    ZMI紫米旅行助手自带的语音翻译功能,可以支持中文和16语言互译,整合微软人工智能翻译和猎户星
    发表于 09-12 16:57 4656次阅读

    双11霸榜硬货全通路销售冠军讯飞翻译机2.0神通何在

    支持中文和全球33语言的即时互译,精准快速的翻译功能,覆盖各类全场景沟通需求;全新INMT翻译
    的头像 发表于 11-13 10:50 1746次阅读

    讯飞翻译机2.0重磅升级,率先发布行业A.I.翻译

    国家出境需求 第一,首发行业A.I.翻译,首批上线医疗/金融/计算机三大行业A.I.翻译官,解决专业领域翻译难点; 第二,语音翻译从中文与33
    发表于 12-07 15:15 740次阅读

    小米米家翻译机最新发布,4.1英寸屏+18语言互译

    11月22日消息,今天小米发布了米家翻译机,采用4.1英寸大屏,专利6麦克风阵列技术,支持18语言互译,售价1299元,将于11月26日1
    的头像 发表于 11-22 16:43 5116次阅读

    谷歌翻译新增五语言支持 全世界超7500万人使用这五语言

    据外媒报道,在过去的4年时间里,Google没有在谷歌翻译中增加对新语言支持。 经过长时间的修整后,该家公司今日终于宣布,它将在谷歌翻译中增加对五
    的头像 发表于 02-27 17:20 3588次阅读

    微软翻译器新增五印度语言的实时翻译 印度语言支持总数达到10

    微软印度宣布,微软翻译器现在将提供古吉拉特语、马拉地语、卡纳达语、马来语和旁遮普语五语言的实时翻译。微软翻译器允许用户使用Windows、
    的头像 发表于 04-17 10:29 3424次阅读

    Facebook的AI翻译系统能翻译100语言

    质量的 100 分制中,该人工智能的表现比同类翻译系统高出 10 分。该模型翻译也由人类进行了翻译评估,其准确率约为 90%。 Facebook 的研究人员在网上收集了 100
    的头像 发表于 10-30 09:25 2849次阅读

    人工智能翻译mRASP:可翻译32语言

    利用计算机把一自然语言转变成另一自然语言的过程就是机器翻译。 机器翻译对于信息时代下海量信息
    的头像 发表于 12-01 14:03 3159次阅读
    人工智能<b class='flag-5'>翻译</b>mRASP:可<b class='flag-5'>翻译</b>32<b class='flag-5'>种</b><b class='flag-5'>语言</b>

    支持Python和Java的BigCode开源轻量级语言模型

    BigCode 是一个开放的科学合作组织,致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型,该
    的头像 发表于 01-17 14:29 905次阅读

    Meta发布开源模型Code Llama 70B

    近日,Meta宣布推出了一款新的开源模型Code Llama 70B,这是其“Code Llama家族中体量最大、性能最好的模型版本”。这款新模型
    的头像 发表于 01-31 09:24 852次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布了开源模型CodeLlama70B
    的头像 发表于 01-31 10:30 1343次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    公司这次开源了Llama 3 8B与70B两款不同规模的模型,开发者可以免费使用,而Meta公司还将陆续推出一系列具备多模态、多语言对话、更长上下文窗口等能力的新
    的头像 发表于 04-19 17:00 785次阅读

    高通支持Meta Llama 3大语言模型在骁龙旗舰平台上实现终端侧执行

    高通和Meta合作优化Meta Llama 3大语言模型支持在未来的骁龙旗舰平台上实现终端侧执行。
    的头像 发表于 04-20 09:13 429次阅读

    Meta发布全新开源模型Llama 3.1

    科技巨头Meta近期震撼发布了其最新的开源人工智能(AI)模型——Llama 3.1,这一举措标志着Meta在AI领域的又一重大突破。Meta
    的头像 发表于 07-24 18:25 1373次阅读