0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为大家介绍三个NLP领域的热门词汇

电子工程师 来源:lp 2019-04-04 16:52 次阅读

编者按:在过去的一段时间,自然语言处理领域取得了许多重要的进展,Transformer、BERT、无监督机器翻译,这些词汇仿佛在一夜之间就进入了人们的视野。你知道它们具体都是什么意思吗?今天,我们就将为大家介绍三个NLP领域的热门词汇。

Transformer

Transformer在2017年由Google在题为《Attention Is All You Need》的论文中提出。Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。

在 Transformer 出现之前,基于神经网络的机器翻译模型多数都采用了 RNN的模型架构,它们依靠循环功能进行有序的序列操作。虽然 RNN 架构有较强的序列建模能力,但是存在训练速度慢,训练质量低等问题。

与基于 RNN 的方法不同,Transformer 模型中没有循环结构,而是把序列中的所有单词或者符号并行处理,同时借助自注意力机制对句子中所有单词之间的关系直接进行建模,而无需考虑各自的位置。具体而言,如果要计算给定单词的下一个表征,Transformer 会将该单词与句子中的其它单词一一对比,并得出这些单词的注意力分数。注意力分数决定其它单词对给定词汇的语义影响。之后,注意力分数用作所有单词表征的平均权重,这些表征输入全连接网络,生成新表征。

由于 Transformer 并行处理所有的词,以及每个单词都可以在多个处理步骤内与其它单词之间产生联系,它的训练速度比 RNN 模型更快,在翻译任务中的表现也比 RNN 模型更好。除了计算性能和更高的准确度,Transformer 另一个亮点是可以对网络关注的句子部分进行可视化,尤其是在处理或翻译一个给定词时,因此可以深入了解信息是如何通过网络传播的。

之后,Google的研究人员们又对标准的 Transformer 模型进行了拓展,采用了一种新型的、注重效率的时间并行循环结构,让它具有通用计算能力,并在更多任务中取得了更好的结果。

改进的模型(Universal Transformer)在保留Transformer 模型原有并行结构的基础上,把 Transformer 一组几个各异的固定的变换函数替换成了一组由单个的、时间并行的循环变换函数构成的结构。相比于 RNN一个符号接着一个符号从左至右依次处理序列,Universal Transformer 和 Transformer 能够一次同时处理所有的符号,但 Universal Transformer 接下来会根据自注意力机制对每个符号的解释做数次并行的循环处理修饰。Universal Transformer 中时间并行的循环机制不仅比 RNN 中使用的串行循环速度更快,也让 Universal Transformer 比标准的前馈 Transformer 更加强大。

预训练Pre-train

目前神经网络在进行训练的时候基本都是基于后向传播(Back Propagation,BP)算法,通过对网络模型参数进行随机初始化,然后利用优化算法优化模型参数。但是在标注数据很少的情况下,通过神经网络训练出的模型往往精度有限,“预训练”则能够很好地解决这个问题,并且对一词多义进行建模。

预训练是通过大量无标注的语言文本进行语言模型的训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语言模型的基础上进行精调。预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法主要有三个:ELMo,OpenAI GPT和BERT。

在2018年初,艾伦人工智能研究所和华盛顿大学的研究人员在题为《Deep contextualized word representations》一文中提出了ELMo。相较于传统的使用词嵌入(Word embedding)对词语进行表示,得到每个词唯一固定的词向量,ELMo 利用预训练好的双向语言模型,根据具体输入从该语言模型中可以得到在文本中该词语的表示。在进行有监督的 NLP 任务时,可以将 ELMo 直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。

在ELMo的基础之上,OpenAI的研究人员在《Improving Language Understanding by Generative Pre-Training》提出了OpenAI GPT。与ELMo为每一个词语提供一个显式的词向量不同,OpenAI GPT能够学习一个通用的表示,使其能够在大量任务上进行应用。在处理具体任务时,OpenAI GPT 不需要再重新对任务构建新的模型结构,而是直接在 Transformer 这个语言模型上的最后一层接上 softmax 作为任务输出层,再对这整个模型进行微调。

ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示,而Google在提出的BERT则实现了双向学习,并得到了更好的训练效果。具体而言,BERT使用Transformer的编码器作为语言模型,并在语言模型训练时提出了两个新的目标:MLM(Masked Language Model)和句子预测。MLM是指在输入的词序列中,随机的挡上 15% 的词,并遮挡部分的词语进行双向预测。为了让模型能够学习到句子间关系,研究人员提出了让模型对即将出现的句子进行预测:对连续句子的正误进行二元分类,再对其取和求似然。

图片来源:Google AI Blog

无监督机器翻译

Unsupervised Machine Translation

现有的机器翻译需要大量的翻译文本做训练样本,这使得机器翻译只在一小部分样本数量充足的语言上表现良好,但如何在没有源翻译的情况下训练机器翻译模型,即无监督训练,成为了目前热门的研究话题。Facebook在EMNLP 2018上的论文《Phrase-Based & Neural Unsupervised Machine Translation》利用跨字嵌入(Cross Word Embedding),提升了高达11 BLEU,那么Facebook是如何实现的呢?

第一步是让系统学习双语词典。系统首先为每种语言中的每个单词训练词嵌入,训练词嵌入通过上下文来预测给定单词周围的单词。不同语言的词嵌入具有相似的邻域结构,因此可以通过对抗训练等方法让系统学习旋转变换一种语言的词嵌入,以匹配另一种语言的词嵌入。基于这些信息,就可以得到一个相对准确的双语词典,并基本可以实现逐字翻译。在得到语言模型和初始的逐字翻译模型之后,就可以构建翻译系统的早期版本。

然后将系统翻译出的语句作为标注过的真实数据进行处理,训练反向机器翻译系统,得到一个更加流畅和语法正确的语言模型,并将反向翻译中人工生成的平行句子与该语言模型提供的校正相结合,以此来训练这个翻译系统。

通过对系统的训练,形成了反向翻译的数据集,从而改进原有的机器翻译系统。随着一个系统得到改进,可以使用它以迭代方式在相反方向上为系统生成训练数据,并根据需要进行多次迭代。

逐字嵌入初始化、语言建模和反向翻译是无监督机器翻译的三个重要原则。将基于这些原理得到的翻译系统应用于无监督的神经模型和基于计数的统计模型,从训练好的神经模型开始,使用基于短语模型的其它反向翻译句子对其进行训练,最终得到了一个既流畅,准确率又高的模型。

对于无监督机器翻译,微软亚洲研究院自然语言计算组也进行了探索。研究人员利用后验正则(Posterior Regularization)的方式将SMT(统计机器翻译)引入到无监督NMT的训练过程中,并通过EM过程交替优化SMT和NMT模型,使得无监督NMT迭代过程中的噪音能够被有效去除,同时NMT模型也弥补了SMT模型在句子流畅性方面的不足。相关论文《Unsupervised Neural Machine Translation with SMT as Posterior Regularization》已被AAAI 2019接收。

感谢微软亚洲研究院自然语言计算组研究员葛涛对本文提供的帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4751

    浏览量

    100445
  • 机器翻译
    +关注

    关注

    0

    文章

    139

    浏览量

    14863
  • nlp
    nlp
    +关注

    关注

    1

    文章

    486

    浏览量

    21993

原文标题:请收下这份NLP热门词汇解读

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    MOS管的三个二级效应

    前面给大家分享了MOS管的结构,符号,阈值电压,四种工作状态分别对应的漏电流公式和跨导的定义公式,相信大家对MOS管的工作原理有了一定的了解,这篇给大家介绍后续电路分析中不可缺少的MO
    发表于 04-25 14:24 4206次阅读
    MOS管的<b class='flag-5'>三个</b>二级效应

    探索并行领域—并行设计行业的三个实例介绍

    获得更高的计算能力。如果您需要有说服力的证据,这里有三个不同行业的三个实例:在去年 Linley 大会的物联网 (IoT) 行业会议中,有一案例研究概述了一款智能手机的设计。这款手表中除了 CPU
    发表于 07-16 08:49

    电路板维修技巧_电路板维修的三个方法

    本文大家介绍电路板维修的三个方法。
    发表于 01-12 17:30 34.7w次阅读

    fpga应用领域_fpga应用三个主要方向

    本文首先介绍了fpga的优势及特点,其次介绍了fpga的应用领域,最后阐述了fpga应用的三个主要方向。
    发表于 04-18 10:15 5.9w次阅读

    NLP介绍和如何利用机器学习进行NLP以及NLP技术的详细介绍

    本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再到如何利用机器学习进行NLP,值得一读。这是该系列的第一部分,
    的头像 发表于 06-10 10:26 7.7w次阅读
    <b class='flag-5'>NLP</b>的<b class='flag-5'>介绍</b>和如何利用机器学习进行<b class='flag-5'>NLP</b>以及<b class='flag-5'>三</b>种<b class='flag-5'>NLP</b>技术的详细<b class='flag-5'>介绍</b>

    最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

    这两问题都很棘手,显然,为期一天的研讨会肯定讨论不出什么结果。但是在会议现场,一些有远见卓识的NLP研究人员还是探讨了不少方法和想法,其中有一些尤其值得关注。在下文中,我们会介绍它们中的三个
    的头像 发表于 08-27 09:47 4415次阅读

    Richard Socher:NLP领域的发展要过座大山

    面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域的发展要过
    的头像 发表于 09-06 11:40 3762次阅读

    随着人工智能的发展 即将出现这三个热门职业

    随着人工智能的发展,很多人类的工作都会被机器取代。但是,新技术也创造了新的岗位和就业机会。管理咨询公司埃森哲调研了全球1500多家使用了人工智能技术的公司,发现了很多新岗位。在《机器与人:埃森哲论新人工智能》这本书里,就介绍了未来的三个
    发表于 02-12 11:19 1491次阅读

    介绍三个NLP领域热门词汇

    具体而言,如果要计算给定单词的下一表征,Transformer 会将该单词与句子中的其它单词一一对比,并得出这些单词的注意力分数。注意力分数决定其它单词对给定词汇的语义影响。之后,注意力分数用作所有单词表征的平均权重,这些表征输入全连接网络,生成新表征。
    的头像 发表于 04-17 10:05 2679次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>三个</b><b class='flag-5'>NLP</b><b class='flag-5'>领域</b>的<b class='flag-5'>热门</b><b class='flag-5'>词汇</b>

    华为三个全新商标对应不同领域

    目前智能手机厂商进军其他领域的现象愈发普遍,不少手机厂商都推出了相应的品牌,在多个方面满足消费者的使用需求。近日,有海外网友发现了三个华为的全新商标,它们分别是“Honor Home”、“Honor Go”以及“Honor Work”,似乎对应着不同的
    的头像 发表于 11-22 15:03 3741次阅读

    NLP 2019 Highlights 给NLP从业者的一参考

    自然语言处理专家elvis在medium博客上发表了关于NLP在2019年的亮点总结。对于自然语言处理(NLP领域而言,2019年是令人印象深刻的一年。在这篇博客文章中,我想重点介绍
    的头像 发表于 09-25 16:56 1688次阅读

    词汇知识融合可能是NLP任务的永恒话题

    以指标增长目标,而是从先验知识融合与嵌套实体问题两方面讨论,希望可以从这两方向的工作中获得解决其他问题的启发 融合词汇知识 Chinese NER Using Lattice LSTM 融合
    的头像 发表于 05-08 11:22 2588次阅读
    <b class='flag-5'>词汇</b>知识融合可能是<b class='flag-5'>NLP</b>任务的永恒话题

    如何判断极管的三个极性

    极管是电子电路中的基本元件之一,其性能的好坏直接影响到整个电路的性能。而判断极管的三个极性(基极b、发射极e、集电极c)是电路分析和设计中不可或缺的一步。下面将详细介绍判断
    的头像 发表于 05-21 15:26 5482次阅读

    微波测量的三个基本参量是什么

    微波测量是电子工程领域中的一重要分支,它涉及到对微波信号的频率、幅度、相位等参数的测量。在微波测量中,有三个基本参量:频率、幅度和相位。这三个参量是微波信号的基本特征,对于微波系统的
    的头像 发表于 05-28 14:46 1065次阅读

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型是一种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解不同的层次,以便于计算机更好地处理和理解。以下是对NLP逻辑层次模型特点的分析: 词汇
    的头像 发表于 07-09 10:39 302次阅读