从语言学到深度学习NLP，一文概述自然语言处理-电子发烧友网

本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念，再向读者展示了深度学习中的NLP。这两篇论文都是很好的综述性入门论文，希望详细了解自然语言处理的读者可以进一步阅读这两篇论文。

本文第一部分介绍了自然语言处理的基本概念，作者将NLP分为自然语言理解和自然语言生成，并解释了NLP过程的各个层级和应用，这一篇论文很适合读者系统的了解NLP的基本概念。

第二部分描述的是基于深度学习的NLP，该论文首先描述了深度学习中的词表征，即从one-hot编码、词袋模型到词嵌入和word2vec等，我们首先需要数字表征词汇才能进一步做自然语言处理。随后，本论文介绍了各种应用于NLP的模型，包括卷积神经网络、循环神经网络、长短期记忆和门控循环神经网络等，这一些模型加上其它如注意力机制那样的技巧就能实现十分强大的能力，如机器翻译、问答系统和情感分析等。

概念基础

自然语言处理（NLP）近来因为人类语言的计算表征和分析而获得越来越多的关注。它已经应用于许多如机器翻译、垃圾邮件检测、信息提取、自动摘要、医疗和问答系统等领域。本论文从历史和发展的角度讨论不同层次的NLP和自然语言生成（NLG）的不同部分，以呈现NLP 应用的各种最新技术和当前的趋势与挑战。

1前言

自然语言处理（NLP）是人工智能和语言学的一部分，它致力于使用计算机理解人类语言中的句子或词语。NLP以降低用户工作量并满足使用自然语言进行人机交互的愿望为目的。因为用户可能不熟悉机器语言，所以 NLP就能帮助这样的用户使用自然语言和机器交流。

语言可以被定义为一组规则或符号。我们会组合符号并用来传递信息或广播信息。NLP基本上可以分为两个部分，即自然语言理解和自然语言生成，它们演化为理解和生成文本的任务（图1）。

图1：NLP的粗分类

语言学是语言的科学，它包括代表声音的音系学（Phonology）、代表构词法的词态学（Morphology）、代表语句结构的句法学（Syntax）、代表理解的语义句法学（Semanticssyntax）和语用学（Pragmatics）。

NLP的研究任务如自动摘要、指代消解（Co-ReferenceResolution）、语篇分析、机器翻译、语素切分（MorphologicalSegmentation）、命名实体识别、光学字符识别和词性标注等。自动摘要即对一组文本的详细信息以一种特定的格式生成一个摘要。指代消解指的是用句子或更大的一组文本确定哪些词指代的是相同对象。语篇分析指识别连接文本的语篇结构，而机器翻译则指两种或多种语言之间的自动翻译。词素切分表示将词汇分割为词素，并识别词素的类别。命名实体识别（NER）描述了一串文本，并确定哪一个名词指代专有名词。光学字符识别（OCR）给出了打印版文档（如PDF）中间的文字信息。词性标注描述了一个句子及其每个单词的词性。虽然这些NLP任务看起来彼此不同，但实际上它们经常多个任务协同处理。

2 NLP的层级

语言的层级是表达NLP的最具解释性的方法，能通过实现内容规划（ContentPlanning)、语句规划（SentencePlanning）与表层实现（Surf aceRealization）三个阶段，帮助NLP生成文本（图2）。

图2：NLP架构的阶段

语言学是涉及到语言、语境和各种语言形式的学科。与NLP相关的重要术语包括：

音系学
形态学
词汇学
句法学
语义学
语篇分析
语用学

3 自然语言生成

NLG是从内在表征生成有含义的短语、句子和段落的处理过程。它是NLP的一部分，包括四个阶段：确定目标、通过场景评估规划如何实现目标、可用的对话源、把规划实现为文本，如下图3。生成与理解是相反的过程。

图3：NLG的组件

6 NLP的应用

NLP可被他应用于各种领域，例如机器翻译、垃圾邮件检测、信息提取等。在这一部分，该论文对以下NLP的应用进行了介绍：

机器翻译
文本分类
垃圾邮件过滤
信息提取
自动摘要
对话系统
医疗

深度学习中的NLP

以上内容对NLP进行了基础的介绍，但忽略了近年来深度学习在NLP领域的应用，因此我们补充了北京理工大学的一篇论文。该论文回顾了NLP之中的深度学习重要模型与方法，比如卷积神经网络、循环神经网络、递归神经网络；同时还讨论了记忆增强策略、注意力机制以及无监督模型、强化学习模型、深度生成模型在语言相关任务上的应用；最后还讨论了深度学习的各种框架，以期从深度学习的角度全面概述NLP发展近况。

如今，深度学习架构、算法在计算机视觉、模式识别领域已经取得惊人的进展。在这种趋势之下，近期基于深度学习新方法的NLP研究有了极大增长。

图4：2012年-2017年，在ACL、EMNLP、EACL、NAACL会议上呈现的深度学习论文数量增长趋势。

十几年来，解决NLP问题的机器学习方法都是基于浅层模型，例如SVM和logistic回归，其训练是在非常高维、稀疏的特征上进行的。在过去几年，基于密集向量表征的神经网络在多种NLP任务上都产生了优秀成果。这一趋势由词嵌入与深度学习方法的成功所兴起。深度学习使得多层级的自动特征表征的学习成为了可能。传统的基于机器学习方法的NLP系统极度依赖手写特征，既耗费时间，又总是不完整。

在2011年，Collobert等人的论文证明简单的深度学习框架能够在多种NLP任务上超越最顶尖的方法，比如在实体命名识别（NER）任务、语义角色标注(SRL）任务、词性标注（POStagging）任务上。从此，各种基于深度学习的复杂算法被提出，来解决NLP难题。

这篇论文回顾了与深度学习相关的重要模型与方法，比如卷积神经网络、循环神经网络、递归神经网络。此外，论文中还讨论了记忆增强策略、注意机制以及无监督模型、强化学习模型、深度生成模型在语言相关任务上的应用。

在2016年，Goldberg也以教程方式介绍过NLP领域的深度学习，主要对分布式语义（word2vec、CNN）进行了技术概述，但没有讨论深度学习的各种架构。这篇论文能提供更综合的思考。

摘要：深度学习方法利用多个处理层来学习数据的层级表征，在许多领域获得了顶级结果。近期，在自然语言处理领域出现了大量的模型设计和方法。在此论文中，我们回顾了应用于NLP任务中，与深度学习相关的重要模型、方法，同时概览了这种进展。我们也总结、对比了各种模型，对NLP中深度学习的过去、现在与未来提供了详细理解。

图2：一个D维向量的分布式向量表达，其中D<< V，V 是词汇的大小。

图3：Bengio等人2003年提出的神经语言模型，C(i)是第i个词嵌入。

图4：CBOW（continuousbag-of-words）的模型

表1：框架提供嵌入工具和方法

图5：Collobert等人使用的CNN框架，来做词级别的类别预测

图6：在文本上的CNN建模(ZhangandWallace,2015）

图7：4个 7-gram核的Top7-grams，每个核对一种特定类型的7-gram敏感(Kim,2014)

图8：DCNN子图。有了动态池化，一顶层只需要小宽度的过滤层能够关联输入语句中离得很远的短语(Kalchbrenneretal.,2014)。

图9：简单的RNN网络

图10：LSTM和GRU 的示图(Chungetal.,2014)

图11：不同单元类型关于迭代数量（上幅图）和时钟时间（下幅图）的训练、验证集学习曲线。其中y轴为对数尺度描述的模型负对数似然度。

图12：LSTM解码器结合CNN图像嵌入器生成图像描述(Vinyalsetal.,2015a)

图13：神经图像QA(Malinowskietal.,2015)

图14：词校准矩阵(Bahdanauetal.,2014)

图15：使用注意力进行区域分级(Wangetal.,2016)

图16：特定区域语句上的注意模块专注点(Wangetal.,2016)

图17：应用于含有「but」语句的递归神经网络(Socheretal.,2013)

图18：基于RNN的AVE进行语句生成（Bowmanetal.,2015）

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47137

浏览量
238114
nlp

nlp

+关注

关注
1

文章
487

浏览量
22031

原文标题：从语言学到深度学习NLP，一文概述自然语言处理

文章出处：【微信号：almosthuman2014，微信公众号：机器之心】欢迎添加关注！文章转载请注明出处。

python自然语言

最近，python自然语言是越来越火了，那么什么是自然语言。自然语言（Natural Language ）广纳了众多技术，对自然或人类语言进

发表于 05-02 13:50

【推荐体验】腾讯云自然语言处理

`相信大家对NLP自然语言处理的技术都不陌生，它是计算机科学领域和AI领域中的一个分支，它与计算机和人类之间使用自然语言进行交互密切相关，而

发表于 10-09 15:28

自然语言处理的优点有哪些_自然语言处理的5大优势

在自然语言处理领域，深度学习的承诺是：给新模型带来更好的性能，这些新模型可能需要更多数据，但不再需要那么多的语言学专业知识。

发表于 12-29 13:52 •2.8w次阅读

深入机器学习之自然语言处理

和方法。随着深度学习在图像识别、语音识别领域的大放异彩，人们对深度学习在NLP的价值也寄予厚望。自然语言

发表于 09-18 22:31 •750次阅读

自然语言处理研究的基本问题及发展趋势

自然语言处理（NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着

发表于 09-21 14:22 •8578次阅读

采用深度学习对自然语言处理进行分类

用深度学习对自然语言处理（NLP）进行分类

发表于 11-05 06:51 •3223次阅读

如何学习自然语言处理NLP详细学习方法说明

这篇文章是一名自然语言处理（nlp）的初学者，在nlp里摸爬滚打了许久的一些心得，推荐了

发表于 03-03 11:05 •5696次阅读

斯坦福AI Lab主任、NLP大师Manning：将深度学习应用于自然语言处理领域的领军者

像Alexa和Siri那样的对话助手对自然语言处理产生了巨大的影响。最开始这些变化跟深度学习和自然语言处

发表于 07-07 07:47 •4225次阅读

自然语言处理（NLP）的学习方向

自然语言处理（Natural Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用

发表于 07-06 16:30 •1.3w次阅读

什么是自然语言处理 (NLP)

自然语言处理（Natural Language Processing, NLP）是人工智能领域中的一个重要分支，它专注于构建能够理解和生成人类语言

发表于 07-02 18:16 •1123次阅读

自然语言处理包括哪些内容

自然语言处理（Natural Language Processing，简称NLP）是人工智能领域的一个重要分支，它涉及到计算机与人类语言之间

发表于 07-03 14:15 •800次阅读

自然语言处理是什么技术的一种应用

自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它涉及到使用计算机技术来

发表于 07-03 14:18 •767次阅读

使用LLM进行自然语言处理的优缺点

自然语言处理（NLP）是人工智能和语言学领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言

发表于 11-08 09:27 •403次阅读

自然语言处理与机器学习的区别

在人工智能的快速发展中，自然语言处理（NLP）和机器学习（ML）成为了两个核心的研究领域。它们都致力于解决复杂的问题，但侧重点和应用场景有所不同。 1.

发表于 11-11 10:35 •518次阅读

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它致力于研究如何让计算机

发表于 12-05 15:21 •436次阅读

搜索历史

从语言学到深度学习NLP，一文概述自然语言处理

概念基础

深度学习中的NLP

评论

python自然语言

【推荐体验】腾讯云自然语言处理

自然语言处理的优点有哪些_自然语言处理的5大优势

深入机器学习之自然语言处理

自然语言处理研究的基本问题及发展趋势

采用深度学习对自然语言处理进行分类

如何学习自然语言处理NLP详细学习方法说明

斯坦福AI Lab主任、NLP大师Manning：将深度学习应用于自然语言处理领域的领军者

自然语言处理（NLP）的学习方向

什么是自然语言处理 (NLP)

自然语言处理包括哪些内容

自然语言处理是什么技术的一种应用

使用LLM进行自然语言处理的优缺点

自然语言处理与机器学习的区别

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤