0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何为Google翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理

电子工程师 来源:lq 2018-12-12 09:44 次阅读

如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?

12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。

过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。

现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。

Google 翻译中有特定性别的翻译

Google 团队是如何做的?

要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。

检测性别中立查询

许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。

为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。

生成特定性别翻译

随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:

识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。

在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:

<2MALE> O bir doktor→他是一名医生

<2FEMALE> O bir doktor→她是一名医生

训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。

如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。

检查准确性

最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:

要求的女性翻译是女性化的;

要求的男性化翻译是男性化的;

除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。

男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。

如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。

对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1766

    浏览量

    57627
  • 神经网络
    +关注

    关注

    42

    文章

    4774

    浏览量

    100911
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14916

原文标题:“男医生,女护士?”消除偏见,Google有大招

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模块示波器的技术原理和应用

    模块示波器是一用于信息科学与系统科学领域的电子测量仪器,以下是对其技术原理及应用的详细阐述:一、技术原理 信号转换与显示: 模块示波
    发表于 12-11 14:20

    LLMWorld上线代码翻译新工具——问丫·码语翻译侠,快来体验!

    应用案例 aicode.llmworld.net 案例一 阅读复杂算法,将计算机语言翻译成自然语言和伪代码,快速帮助用户理解算法实现逻辑。 Input(C++): 正弦波信号进行傅里叶变换,并输出其频域结果的C++
    的头像 发表于 12-09 11:11 311次阅读
    LLMWorld上线代码<b class='flag-5'>翻译</b>新工具——问丫·码语<b class='flag-5'>翻译</b>侠,快来体验!

    IMAX携手Camb.AI实现影院实时语言翻译

    内容和精彩纪录片精准地本地化为多达140语言,以满足全球不同地区观众的多样需求。传统配音方式不仅成本高昂,而且耗时较长,难以满足快速变化的市场需求。而Camb.AI的DubStudio平台则凭借其先进的人工智能技术,承诺能够
    的头像 发表于 11-26 13:55 412次阅读

    阿里国际发布翻译大模型Marco

    近日,阿里国际正式推出了其翻译大模型——Marco。这款模型已在阿里国际AI官网Aidge上线,并向全球用户开放使用。
    的头像 发表于 10-17 16:07 299次阅读

    噪声传导的两种模式

    噪声传导有两种模式,一为差模传导,一为共模传导。
    的头像 发表于 10-15 11:33 331次阅读
    噪声传导的<b class='flag-5'>两种</b>模式

    用逻辑和翻译用例优化资产跟踪器

    电子发烧友网站提供《用逻辑和翻译用例优化资产跟踪器.pdf》资料免费下载
    发表于 09-21 11:24 0次下载
    用逻辑和<b class='flag-5'>翻译</b>用例优化资产跟踪器

    使用逻辑和翻译优化车身控制模块(BCM)应用说明

    电子发烧友网站提供《使用逻辑和翻译优化车身控制模块(BCM)应用说明.pdf》资料免费下载
    发表于 09-11 11:30 0次下载
    使用逻辑和<b class='flag-5'>翻译</b>优化车身控制模块(BCM)应用说明

    接地保护分为哪两种方式

    接地保护是电气工程中非常重要的一安全措施,其目的是确保电气设备和系统在发生故障时能够安全地将电流导向地面,从而保护人身安全和设备安全。接地保护主要分为两种方式:工作接地和保护接地。以下是对这两种
    的头像 发表于 08-05 10:24 1177次阅读

    DeepL推出新一代翻译编辑大型语言模型

    在人工智能与语言处理领域,DeepL再次以其创新实力引领潮流,宣布成功推出新一代面向翻译与编辑应用的大型语言模型。这一里程碑式的进展,不仅巩固了DeepL作为顶尖语言人工智能公司的地位,更标志着机器翻译技术向更高质量、更智能
    的头像 发表于 07-19 15:56 697次阅读

    DeepL 推出下一代大型语言模型(&quot;LLM&quot;),翻译质量超越竞争对手

    和编辑打造的高度专业的 LLM 技术提供支持。此次发布是 DeepL 企业语言人工智能平台的一项重大突破,为翻译质量和性能树立了新的行业标准。 新的语言模式是三大发展的
    的头像 发表于 07-18 09:29 445次阅读

    超ChatGPT-4o,国产大模型竟然更懂翻译,8款大模型深度测评|AI 横评

    、速度慢、费用高且难以准确理解上下文”的问题。相比之下,AI大模型凭借其强大的学习能力和适应性,在翻译质量、效率、上下文理解和多语言支持等方面表现出色,提供了更加
    的头像 发表于 07-14 08:04 128次阅读
    超ChatGPT-4o,国产大模型竟然更懂<b class='flag-5'>翻译</b>,8款大模型深度测评|AI 横评

    开源项目!设计一款智能手语翻译眼镜

    手语翻译的依赖。 这款眼镜的设计既实用又低调,方便日常佩戴,能够无缝融入用户的日常生活中,让使用者能够轻松地与不懂手语的人士沟通。它的亮点在于利用人工智能技术检测手势并进行实时翻译,不仅打破了交流障碍
    发表于 05-20 15:59

    Meta探索开发AI耳机:识别物体和翻译外语

    据外媒The Information透露,Facebook母公司Meta正积极研究研发配备摄像头的人工智能耳机,旨在实现物体识别与外语实时翻译功能。
    的头像 发表于 05-14 14:26 521次阅读

    国强光电与西安翻译学院合作建设的新能源汽车充电站正式投用

    近日,我司与西安翻译学院合作建设的新能源汽车充电站正式投入使用。
    的头像 发表于 03-19 17:13 1010次阅读

    PLC常用专业英文词汇翻译总结

    PLC编程中我们经常会遇到一些专业英文词汇,对于入门的学员来说过理解起来是非常困难的。本文总结了一些PLC常用专业英文词汇,并做已翻译
    的头像 发表于 03-19 11:40 2458次阅读