0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Facebook人工智能在自然语言理解方面取得重大突破

电子工程师 来源:郭婷 作者:新浪科技 2019-09-17 17:05 次阅读

自然语言理解(NLU)和语言翻译是一系列重要应用的关键,包括大规模识别和删除有害内容,以及连接世界各地不同语言的人们。尽管近年来基于深度学习的方法加速了语言处理的进展,但在处理大量标记训练数据不易获得的任务时,现有系统的处理水平仍然是有限的。

因此,Facebook 联合 Deepmind Technologies、纽约大学(NYU)及华盛顿大学(UW)合作构建新基准 SuperGLUE,并发布了相关内容介绍该高难度测试基准。

SuperGLUE 推出背景

最近,Facebook 人工智能在 NLP 方面取得了重大突破。Facebook 通过使用半监督和自监督学习技术,利用未标记的数据来提高纯监督系统的性能。

在第四届机器翻译大会(WMT19)比赛中,Facebook 采用了一种新型的半监督训练方法,并在多种语言翻译任务中获得了第一名。Facebook 还引入了一种新的自我监督的预训练方法——RoBERTa。它在一些语言理解任务上超过了所有现有的 NLU 系统。在某些情况下,这些系统甚至优于人类基线,包括英德翻译和五个 NLU 基准。

在整个自然语言处理领域,NLU 系统的发展速度如此之快,以至于它在许多现有的基准上已经达到了一个极限。为了继续提高技术水平,Facebook 与 Deepmind Technologies、纽约大学及华盛顿大学合作开发了一套全新的基准、排行榜和 PyTorch 工具包(https://jiant.info/),Facebook 希望这些成果将进一步推动自然语言处理领域的研究进展。

简而言之,这些新工具将帮助人类创建更强大的内容理解系统,而且能够翻译数百种语言,理解诸如含糊不清、共同引用和常识性推理等复杂的问题,从而减少现有的这些系统对大量标记训练数据的依赖性。

翻译准确性的突破

对于神经机器翻译(NMT)模型,有监督式训练通常需要大量附有参考翻译的句子。然而,大量高质量的双语数据并不是普遍可用的,这就要求研究人员使用没有参考翻译的单语数据。反向翻译(Back translation,一种半监督学习技术)允许 Facebook 在一定程度上克服这个问题。

Facebook 最近提交给 WMT 的报告是基于 Facebook 之前在大规模反向翻译方面的工作,这也帮助 Facebook 在去年的同一比赛中赢得了第一名。

而今年,Facebook 引入了一种新的方法,通过生成多个候选译文,并选择最能平衡正向、反向、流畅性三种不同模型分数的译文,来进一步改进 Facebook 的反向翻译系统。

正向模型的分数主要由候选翻译在多大程度上捕捉了原句的意思来衡量;相反,反向模型的分数是通过查看模型能从候选译文中重建出的句子准确性来评判;流畅性模型的分数根据候选翻译流畅性来衡量,最后系统通过观察大量的单语数据以自我监督的方式进行训练;经过对这三个分数的平衡,系统就能够产生显著优化后的翻译结果。

经过几年的努力,Facebook 将英-德语翻译任务的性能提高了 4.5 BLEU(衡量生成的翻译和专业参考之间重叠程度的指标),这是一个很大的改进。根据人工评估,Facebook 的模型在英-德、德-英、英-俄,和俄-英四个翻译任务中排名第一。根据 WMT 赛制的评判,Facebook 的英-德语翻译甚至比人工翻译更佳。

图 1 Facebook 引入的一种新方法

上面的图片展示了这种技术是如何工作的:首先,一个正向模型将一个句子翻译成英语,例如从德语翻译成英语,就会生成一组英语翻译或假设。然后,一个反向模型将这些英语假设翻译回德语,使系统能够评估每个英语翻译与原始德语句子的匹配程度。最后,一个语言模型来判断英语翻译的流畅程度。

Facebook 还将训练扩展到了更大的数据集,包括大约 100 亿个单词用于英语到德语翻译的词汇。与去年相比,Facebook 使用了两倍多的单语数据进行半监督训练,进一步提高了翻译的准确性。更多详情,可以参考 Facebook 人工智能在 2019 年 WMT 国际机器翻译大赛中的表现(https://ai.facebook.com/blog/facebook-leads-wmt-translation-competition/)。

自监督预训练方法的改进

Facebook 最近对自然语言处理(NLP)的最大突破——BERT, 也进行了优化和改进。Google 在 2018 年发布了 BERT。它是革命性的,因为它展示了自监督训练技术的潜力,它具有与传统的标签密集型监督方法的性能相媲美甚至超越它的能力。例如,Facebook 利用 BERT 和相关方法推动对话型人工智能领域的前沿研究,改进内容理解系统,提高低资源和无监督的翻译质量。

因为 Google 开源了 BERT,Facebook 才能够进行一项复制研究,并确定进一步提高其有效性的设计变更。Facebook 引入了稳健优化的 BERT 预训练方法,即 RoBERTa,并取得了新的最先进进展。

RoBERTa 修改了 BERT 中的关键超参数,包括删除 BERT 的下一个句子的预训练目标,并使用更大的批量和学习率进行训练。与 BERT 相比,RoBERTa 的数据总量要多 10 倍以上,因此训练时间也要长得多。这种方法在广泛使用的 NLP 基准测试、通用语言理解评估(GLUE)和阅读理解考试(RACE)上产生了最先进的结果。

图 2 图表展示了 RoBERTa 在不同任务中的结果

凭借平均得分 88.5 分,RoBERTa 赢得了 GLUE 排行榜的榜首位置,与之前第一名——平均得分为 88.4 分的 XLNet-Large 表现不相上下。RoBERTa 还在一些语言理解基准测试水平上实现了提高,包括 MNLI、QNLI、RTE、STS-B 和 RACE 任务。

这一部分就是 Facebook 不断致力于提高不太依赖于数据标记的自监督系统的性能和潜力的内容。有关 RoBERTa 的更多详细信息,请参考‘RoBERTa:预训练自监督 NLP 系统的优化方法(https://ai.facebook.com/blog/roberta-an-optimized-method-for-pretraining-self-supervised-nlp-systems/)’。

NLP 研究的下一个前沿

作为衡量研究进展的行业标准,GLUE 旨在覆盖大量的 NLP 任务,因此只有构建足够通用的工具来帮助解决大多数新的语言理解问题,才能得到良好的表现。

在发布后的一年内,几个 NLP 模型(包括 RoBERTa)已经在 GLUE 基准测试中超过了人类。目前的模型已经提出了一个令人惊讶的有效方法,它将大型文本数据集上的语言模型预训练与简单的多任务和转移学习技术进行了结合。

这种快速的进步是大型人工智能社区内协作的一个功能。上面描述的 NLP 竞赛、基准测试和代码发布使模型复制,改进和最先进结果的更快进步成为可能。随着 GPT 和 BERT 的引入,GLUE 的模型性能急剧提升,现在最先进的模型已经超越了人类的能力,如图 3 所示:

图 3 最先进的自然语言处理模型能力已经超越人类

尽管目前的模型可以在特定的 GLUE 任务上超越人类水平的性能,但它们还不能完美地解决人类解决的一些任务。为了给 NLP 研究设定一个新的更高的标准,facebook 人工智能团队与纽约大学、deepmind 以及华盛顿大学合作构建了 SuperGLUE,这是一个具有全面人类基线的更高难度基准。Facebook 正在推出 SuperGlue,让自然语言理解领域的研究人员能够继续推进最先进的技术。

SuperGLUE 基准测试

最初的基准和新的基准都是由纽约大学发起,与相同的合作伙伴合作创建。SuperGLUE 紧跟 GLUE 的脚步,GLUE 提供了单一的数字度量,用于总结不同 NLP 任务集的进度。除了新的基准之外,Facebook 还发布了一个用于引导研究的排行榜和 pytorch 工具包。

SuperGlue 包含了新的方法来测试一系列困难的 NLP 任务的创造性方法,这些任务主要关注机器学习一些核心领域的创新,包括样本有效性、转移、多任务和自监督学习。为了向研究人员提出挑战,Facebook 选择了格式多样、问题更为微妙、尚未用最先进方法解决但容易被人们解决的任务。为了检查这些任务,Facebook 为许多候选任务运行基于 BERT 的基线,并为人工基线收集数据。

新的基准测试包括八个不同且具有挑战性的任务,其中包括选择合理的替代方案(COPA),一个因果推理任务。在这个任务中,系统被赋予一个前提语句,并且必须从两个可能的选择中确定这个前提语句的因果。值得注意的是,人类在 COPA 上获得了 100% 的准确率,而 BERT 只获得了 74%,这表明 BERT 还有很大的进步空间。

其他独特的前沿组件还包括用于测量这些模型中偏差的诊断工具。例如:winogender,它是为了测试在自动指代消解系统(automated co-reference resolution systems)中是否存在性别偏见而设计的。SuperGlue 还包括一个名为‘BoolQ’的问答(QA)任务,其中每个示例都由一个段落和一个关于该段落的是’或‘否’问题组成;它是自然问题基准测试中的一个很好的工具。

图 4 该示例表示 SuperGlue 中八个任务中的 1 个。粗体文本表示每个任务示例格式的一部分;斜体文本是模型输入的一部分;带下划线的文本在输入中特别标记;等宽字体中的文本表示预期的模型输出(更多示例请阅读原文)

与 GLUE 类似,新的基准测试还包括一个围绕自然语言理解任务构建的公共排行榜,它利用现有数据,并附带一个单数字性能指标和一个分析工具包。

Facebook 最近针对新的基准测试了 RoBERTa,RoBERTa 在多语言阅读理解(Multientence Reading Comprehension,MultiRC)任务中的表现超过了所有现有的 NLU 系统,甚至超过了人类在该任务上的基线。尽管如此,在许多 SuperGLUE 任务中,RoBERTa 与人类基线之间仍然存在很大差距,这说明了当今最先进的 NLU 系统的一些局限性。

图 5 RoBERTa 在多语言阅读理解任务中表现与其它方法的对比

下一步计划

为了进一步挑战人工智能系统能为人类提供的帮助,Facebook 还引入了第一个长格式的问答数据集和基准测试,它要求机器提供长而复杂的答案——这是现有算法以前从未遇到过的挑战。

目前的问答系统主要集中在一些琐碎的问题上,比如水母是否有大脑。这项新的挑战更进一步,要求机器对开放性问题进行深入的解答,例如‘没有大脑,水母如何工作?’现有的算法与人类的表现相去甚远,这一新的挑战将促使人工智能合成来自不同来源的信息,为开放式问题提供复杂的答案。

近期,Facebook 还公布了来自 35 个国家的 115 份获奖提案中的 11 份,并宣布成立人工智能语言研究联盟 (AI Language Research Consortium),这是一个由合作伙伴组成的社区,Facebook 表示将‘共同努力,推进 NLP’。

除了与 Facebook 的研究人员就多年项目和出版物进行合作外,人工智能语言研究联盟的成员还有机会获得研究经费,参加年度研究讲习班,参加重要的 NLP 会议。Facebook 表示:‘这些 NLP 和机器翻译的研究奖项是我们长期目标的延续,我们希望这个联盟,以及这些 NLP 和机器翻译的研究奖项,会有助于加速 NLP 社区的研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Facebook
    +关注

    关注

    3

    文章

    1429

    浏览量

    54638
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237494
收藏 人收藏

    评论

    相关推荐

    ASR与自然语言处理的结合

    ASR(Automatic Speech Recognition,自动语音识别)与自然语言处理(NLP)是人工智能领域的两个重要分支,它们在许多应用中紧密结合,共同构成了自然语言理解
    的头像 发表于 11-18 15:19 267次阅读

    自然语言处理与机器学习的区别

    是计算机科学、人工智能语言学领域的分支,它致力于使计算机能够理解、解释和生成人类语言。NLP的目标是缩小人类语言和计算机之间的差距,使计算
    的头像 发表于 11-11 10:35 328次阅读

    ChatGPT 与人工智能的未来发展

    模型的出现,标志着人工智能在理解和生成人类语言方面取得重大突破。 1. ChatGPT的工作原理 ChatGPT基于一种称为“变换器”(T
    的头像 发表于 10-25 16:30 387次阅读

    Anthropic在人工智能领域取得重大突破

     10月23日消息,美国当地时间周二,人工智能初创企业Anthropic宣布了一项重大进展。这家由前OpenAI高管创立并获得亚马逊支持的公司,在人工智能领域取得了新的
    的头像 发表于 10-23 14:56 387次阅读

    图像识别技术包括自然语言处理吗

    图像识别技术与自然语言处理是人工智能领域的两个重要分支,它们在很多方面有着密切的联系,但也存在一些区别。 一、图像识别技术与自然语言处理的关系 1.1 图像识别技术的定义 图像识别技术
    的头像 发表于 07-16 10:54 626次阅读

    Transformer架构在自然语言处理中的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在
    的头像 发表于 07-09 11:42 691次阅读

    自然语言处理技术有哪些

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 07-03 14:30 936次阅读

    自然语言处理模式的优点

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、生成和处理人类语言。随着技术的发展,
    的头像 发表于 07-03 14:24 644次阅读

    自然语言处理技术的核心是什么

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,其核心目标是使计算机能够理解、生成和处理人类语言。NLP技术的发展已经
    的头像 发表于 07-03 14:20 573次阅读

    自然语言处理包括哪些内容

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机与人类语言之间的交互。NLP的目标是让计算机能够理解、生成
    的头像 发表于 07-03 14:15 721次阅读

    自然语言处理属于人工智能的哪个领域

    之间的交互,旨在使计算机能够理解、生成和处理自然语言自然语言处理:人工智能的皇冠上的明珠 引言 人工智能作为一门跨学科的研究领域,涵盖了
    的头像 发表于 07-03 14:09 1120次阅读

    什么是自然语言处理 (NLP)

    自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要分支,它专注于构建能够理解和生成人类语言的计算机系统。NLP的目标是使计算机能
    的头像 发表于 07-02 18:16 1041次阅读

    自然语言处理技术的原理的应用

    自然语言处理(Natural Language Processing, NLP)作为人工智能(AI)领域的一个重要分支,旨在使计算机能够理解和处理人类自然语言。随着互联网的普及和大数据
    的头像 发表于 07-02 12:50 445次阅读

    神经网络在自然语言处理中的应用

    自然语言处理(NLP)是人工智能领域中的一个重要分支,它研究的是如何使计算机能够理解和生成人类自然语言。随着人工智能技术的飞速发展,神经网络
    的头像 发表于 07-01 14:09 430次阅读

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    化能力和适应性。在自然语言处理任务中,大语言模型展现出卓越的语言理解和生成能力。此外,大语言模型还能在
    发表于 05-04 23:55