0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google翻译出现“水逆”,是员工的恶作剧?

电子工程师 来源:未知 作者:胡薇 2018-07-31 08:22 次阅读

最近,一些网友使用的 Google 翻译“水逆”了。

在Reddit上,有网友截图显示,在 Google 翻译中当某些语种的词汇翻译成英语时,输出的却是毫无由头的宗教语言。比如键入 19 个 dog,将其从毛利语翻译成英语时,输出的却是“距离十二点的世界末日时钟还差三分钟,我们正在经历世界上的人物和戏剧性发展,这预示着我们正在无线接近末日,耶稣回归时日将近。”

但这只是众多无厘头翻译的其中之一。还有网友放出了很多“不详”的翻译内容。例如,在索马里语中,“ag”这个词被翻译成了“Gershon 的儿子(sons of Gershon)”,“耶和华的名字(name of the LORD)”,并且会引用圣经里的“cubits”(计量单位)和Deuteronomy(《申命记》)。

有网友留言称其为“恶魔”或者“幽灵”,猜测这是 Google 员工的恶作剧,也有人建议设置“建议编辑”功能,让用户可以进行修改为正确内容。Google 发言人 Justin Burr 在一封电子邮件中称:这只是一个将无意义的话语输入系统然后产生无意义输出的功能。

不过 Justin Burr 并未透露 Google 翻译使用的训练数据是否有宗教文本。但上述诡异输出内容很可能已被 Google 翻译修正,AI科技大本营编辑输入上述相同内容后也并未发现异常。

但人们对探讨 Google 翻译出现如此结果的背后原因热情不减,更专业的声音在不断发出。哈佛大学助理教授 Andrew Rush 认为,这很可能与 2 年前 Google 翻译技术的改变有关,它目前使用了的是“神经机器翻译(NMT)”的技术。

BBN Technologies 的科学家 Sean Colbath 从事机器翻译工作,他同意奇怪的输出可能是由于 Google 翻译的算法试图在混乱中寻找秩序。他还指出,索马里语、夏威夷语以及毛利语等产生最奇怪结果的语言,它们用于训练的翻译文本比英语或汉语等更广泛使用的语言要少很多。所以他认为,Google 可能会使用像圣经等被翻译成多种语言的宗教文本来训练小语种的模型,这也解释了为什么会最终输出宗教内容。

前 Google 员工 Delip Rao 在其博客上则指出,当谈到平行语料库时,宗教文本是最低层次的共同标准资源,像“圣经”和“古兰经”这样的主要宗教文本有各种语言版本。

比如,如果你为政府部署一个 Urdu-to-English (乌尔都语——英语)的机器翻译系统,那么很容易将一堆已经翻译成乌尔都语的宗教文本组合在一起。因此,可以合理地假设 Google 的平行语料库中包含所有的宗教文本,而对于许多资源不足的语言,它们不只是训练语料库中微不足道的部分。

那么,为什么我们看到 Google 翻译会输出宗教文本,尤其是以那些资源不足的语言对作为输入时 ,如上文中的毛利语?一种解释是,因为宗教文本包含许多只会在宗教文本中出现的罕见词,而这些词在其他任何地方都不会出现。因此,罕见的词语可能会触发解码器中的宗教情境,尤其是当这些文本的比例很大时。另一种解释是该模型对输入的内容没有太多的统计支持,而输出也只是解码器模型的无意义采样。

更重要的是,他想要指出现在的神经机器翻译 (NMT) 真正存在的问题。

他特意总结了2017 年 Philipp Koehn 和 Rebecca Knowles 撰写的一篇论文,内容如下:

1.NMT 在域外数据上表现很差:像 Google 翻译这样的通用 MT 系统在法律或金融等专业领域的表现尤其糟糕。此外,与基于短语的翻译系统等传统方法相比,NMT 系统的效果更差。到底有多糟糕?如下图所示,其中非对角线元素表示域外结果,绿色是 NMT 的结果,蓝色是基于短语的翻译系统的结果。

MT 系统在一个域 (行) 上训练并在另一个域 (列) 上进行测试。蓝色表示基于短语翻译系统的表现,而绿色表示 NMT 的表现。

2.NMT 在小数据集上的表现很差:虽然这算是机器学习的通病,但这个问题在 NMT 中体现尤其明显。相比基于短语的 MT 系统,虽然 NMT 随着数据量的增加能进行更好地概括 ,但在小数据量情况下 NMT 的表现确实更糟糕。

引用作者的话来说,“在资源较少的情况下,NMT 会产生与输入无关的输出,尽管这些输出是流畅的。”这可能也是 Motherboard 那篇文章中探讨 NMT 表现怪异的另一个原因。

3.Subword NMT 在罕见词汇上的表现很糟糕:虽然它的表现仍然要好过基于短语的翻译系统,但对于罕见或未见过的词语,NMT 的表现不佳。例如,那些系统只观察到一次的单词就会被 drop 掉。像 byte-pair encoding 这样的技术对解决这个问题有所帮助,但我们有必要对此进行更详细的研究。

我们可以看到图中像土耳其语 (Turkish) 这样的语言,遇到词的变形形式是很常见的。

4.长句:以长句编码并产生长句,这仍然是一个开放的、值得研究的话题。在法律等领域,冗长复杂的句子是很常见的。MT 系统的性能将随句子长度而降级,而 NMT 系统亦是如此。引入注意力机制可能会有所帮助,但问题还远未解决。

5.注意力机制 != 对齐:这是一个非常微妙但又很重要的问题。在传统的 SMT 系统中,如基于短语的翻译系统,语句对齐能够提供有用的调试信息来检查模型。但即便论文中经常将软注意力机制视为“软对齐”,注意力机制并不是传统意义上的对齐。在 NMT 系统中,除了源域中的动词外,目标中的动词也可以作为主语和宾语。

6.难以控制翻译质量:每个单词都有多种翻译,并且典型的 MT 系统对源句的翻译好于lattice of possible translations。为了保持后者的大小合理,我们使用集束搜索 (beam search)。通过改变波束的宽度,来找到低概率但正确的翻译。而对于 NMT 系统,调整集束尺寸似乎没有任何不利影响。

当你拥有大量数据时,NMT 系统的翻译性能依然还是难以被击败的,而且它们仍然在大量地被使用。关于通常我们所说的神经网络模型的黑盒性,也有待进一步说明,如今的 NMT 模型 (基于 LSTM 和 Transformer 模型) 也都受此影响。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1765

    浏览量

    57529
  • 翻译
    +关注

    关注

    0

    文章

    47

    浏览量

    10769

原文标题:输出不详宗教预言,Google翻译为何“水逆”了?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Google Cloud发布两款针对企业客户的全新解决方案

    Google Cloud 近期发布两款专为企业客户设计的全新解决方案——Google Agentspace与NotebookLM Plus,目的是通过 Gemini 先进的推理能力、Google 高质量的搜索功能,以及无论存储在
    的头像 发表于 12-27 16:31 89次阅读

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    01. 工具介绍 aicode.llmworld.net 问丫·码语翻译侠 是一款由LLMWorld新推出的代码翻译工具,支持各种语言之间的翻译,包括计算机语言到自然语言。 02.
    的头像 发表于 12-09 11:11 253次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    ida反编译出来代码能直接用吗

    IDA反编译出来的代码通常 不能直接使用 ,这主要基于以下几个方面的原因: 一、代码的不完整性 IDA反编译生成的代码可能缺少原始源代码中的某些关键信息。在编译过程中,编译器会优化代码,剔除或优化掉
    的头像 发表于 09-02 10:55 671次阅读

    推挽变电路与桥式变电路的区别

    推挽变电路与桥式变电路是两种常见的变电路形式,它们在结构、工作原理、应用领域等方面存在一些区别。以下是对这两种变电路的比较: 结构区别 推挽
    的头像 发表于 08-15 17:14 1348次阅读

    有源变电路和无源变电路的区别

    定义: 有源变电路:有源变电路是指逆变器在变过程中需要消耗外部电源的电路。它通常使用直流电源(如电池)作为输入,将直流电转换为交流电。 无源变电路:无源
    的头像 发表于 08-02 17:01 2904次阅读

    使用opa221采样变输出交流电压出现失真怎么解决?

    使用28335做为变电路的主控制芯片,测试ADC输出交流电压采样调理电路出现底部削平的现象,输入为0到220交流,测量运放两端发现小电压输入时运放输出看起来还没有削(也可能削了不明显),大电压
    发表于 07-31 06:44

    单相变电路的类型有哪些

    开关器件的类型分类 1.1.1 晶闸管变电路 晶闸管变电路是最早出现变电路之一,其主要特点是结构简单、成本低廉,但存在开关速度慢、效率低、谐波含量高等缺点。 1.1.2 晶体管
    的头像 发表于 07-08 09:21 664次阅读

    使用google-translate和wwe合并后无法使用google-tts怎么解决?

    ,在使用唤醒词唤醒后,我想让他使用google-tts说一句话,但是出现以下错误Code: Select all I (16188) wwe_example: rec_engine_cb
    发表于 06-28 06:05

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit,编译出现这个错误是什么意思?

    **Error! Class \'rom\' [group ] starting 8080 has exceeded limit of BFFF by 7!请教各位老师,编译出现这个错误提示是什么意思,谢谢
    发表于 05-17 06:14

    谷歌解雇28名员工,因参与云合同抗议

    Google表示,由于员工消极抵抗其与以色列政府签署的云计算合同,已经解雇了28位员工。该公司在声明中强调,抵制行为严重干扰了正常工作秩序,并且违反了其企业政策。
    的头像 发表于 04-19 12:17 380次阅读

    变电路的工作原理 变电路的作用与分类

    变电路的工作原理 变电路的作用与分类 变电路是一种将直流电转换为交流电的电路,其工作原理和作用可以根据具体分类有所不同。下面将详尽、详实、细致地介绍变电路的工作原理、作用和分类
    的头像 发表于 04-08 18:20 5234次阅读

    STM32cubeMX设置USB编译出现Undefined symbol错误的原因?

    STM32cubeMX 设置USB 编译出现Undefined symbol 错误。 勾选STM32CUBEMX中的USB_device 设置FS IP的VPC,默认配置,用keil软件编译就出现以下截图报错。
    发表于 04-01 07:44

    光缆峰是什么意思?

    光缆峰是指在光纤通信中由于光纤与外部环境发生的物理变化或损坏,导致光信号传输中出现的信号衰减或损失的现象。光缆峰可能由多种原因引起,其中一种主要的原因是光纤受到的影响。 光纤通常
    的头像 发表于 03-21 10:25 709次阅读

    谷歌广告团队裁员数百人,员工转向中等级别客户服务

    目前有多位相关员工透露,谷歌正逐步将更多员工从大型客户销售团队(LCS)调配至服务中等规模客户的 Google 客户解决方案团队(GCS)。同时,谷歌也尝试借助人工智能技术让性能优化系统等产品实现更多自动化操作。
    的头像 发表于 01-17 10:42 738次阅读

    AI数字员工出现:不是取代,而是让技术更好地服务于人类

    在人工智能技术迅猛发展的今天,AI数字员工出现成为了企业和组织关注的热点。与传统观念中的机器人或自动化设备不同,AI数字员工是集成了最新AI技术,如自然语言处理、机器学习和情感分析等功能的虚拟助手
    的头像 发表于 12-29 10:27 436次阅读
    AI数字<b class='flag-5'>员工</b>的<b class='flag-5'>出现</b>:不是取代,而是让技术更好地服务于人类