浅析自然语言处理知识体系结构-电子发烧友网

自然语言处理知识太庞大了，网上也都是一些零零散散的知识，比如单独讲某些模型，也没有来龙去脉，学习起来较为困难，于是我自己总结了一份知识体系结构，内容来源主要参考黄志洪老师的自然语言处理课程，主要参考书为宗成庆老师的《统计自然语言处理》，可能很多内容写的不清楚，但好像中文NLP书籍就这一本全一些。

▌一、自然语言处理概述

1）自然语言处理：利用计算机为工具，对书面实行或者口头形式进行各种各样的处理和加工的技术，是研究人与人交际中以及人与计算机交际中的演员问题的一门学科，是人工智能的主要内容。

2）自然语言处理是研究语言能力和语言应用的模型，建立计算机（算法）框架来实现这样的语言模型，并完善、评测、最终用于设计各种实用系统。

3）研究问题（主要）：

信息检索

机器翻译

文档分类

问答系统

信息过滤

自动文摘

信息抽取

文本挖掘

舆情分析

机器写作

语音识别

研究模式：自然语言场景问题，数学算法，算法如何应用到解决这些问题，预料训练，相关实际应用

自然语言的困难：

场景的困难：语言的多样性、多变性、歧义性

学习的困难：艰难的数学模型（hmm,crf,EM,深度学习等）

语料的困难：什么的语料？语料的作用？如何获取语料？

▌二、形式语言与自动机

语言：按照一定规律构成的句子或者字符串的有限或者无限的集合。

描述语言的三种途径：

穷举法

文法（产生式系统）描述

自动机

自然语言不是人为设计而是自然进化的，形式语言比如：运算符号、化学分子式、编程语言形式语言理论朱啊哟研究的是内部结构模式这类语言的纯粹的语法领域，从语言学而来，作为一种理解自然语言的句法规律，在计算机科学中，形式语言通常作为定义编程和语法结构的基础形式语言与自动机基础知识：

集合论

图论

自动机的应用：

单词自动查错纠正

词性消歧（什么是词性？什么的词性标注？为什么需要标注？如何标注？）

形式语言的缺陷：

对于像汉语，英语这样的大型自然语言系统，难以构造精确的文法

不符合人类学习语言的习惯

有些句子语法正确，但在语义上却不可能，形式语言无法排出这些句子

解决方向：基于大量语料，采用统计学手段建立模型

▌三、语言模型

1）语言模型（重要）：通过语料计算某个句子出现的概率（概率表示），常用的有2-元模型，3-元模型

2）语言模型应用：

语音识别歧义消除例如，给定拼音串：tashiyanyanjiusaunfade

可能的汉字串：踏实烟酒算法的他是研究酸法的他是研究算法的，显然，最后一句才符合。

3）语言模型的启示：

开启自然语言处理的统计方法

统计方法的一般步骤：

收集大量语料

对语料进行统计分析，得出知识

针对场景建立算法模型

解释和应用结果

4）语言模型性能评价，包括评价目标，评价的难点，常用指标（交叉熵，困惑度）

5）数据平滑：

数据平滑的概念，为什么需要平滑？

平滑的方法，加一法，加法平滑法，古德-图灵法，J-M法，Katz平滑法等。

6）语言模型的缺陷：

语料来自不同的领域，而语言模型对文本类型、主题等十分敏感。

n与相邻的n-1个词相关，假设不是很成立。

▌四、概率图模型，生成模型与判别模型，贝叶斯网络，马尔科夫链与隐马尔科夫模型（HMM）

1）概率图模型概述（什么的概率图模型，参考清华大学教材《概率图模型》）

2）马尔科夫过程（定义，理解）

3）隐马尔科夫过程（定义，理解）

HMM的三个基本问题（定义，解法，应用）

注：第一个问题，涉及最大似然估计法，第二个问题涉及EM算法，第三个问题涉及维特比算法，内容很多，要重点理解，（参考书李航《统计学习方法》，网上博客，笔者github）

▌五、马尔科夫网，最大熵模型，条件随机场（CRF）

1)HMM的三个基本问题的参数估计与计算

2）什么是熵

3）EM算法（应用十分广泛，好好理解）

4）HMM的应用

5）层次化马尔科夫模型与马尔科夫网络

提出原因，HMM存在两个问题

6）最大熵马尔科夫模型

优点：与HMM相比，允许使用特征刻画观察序列，训练高效

缺点：存在标记偏置问题

7）条件随机场及其应用(概念，模型过程，与HMM关系)

参数估计方法（GIS算法，改进IIS算法）

CRF基本问题：特征选取（特征模板）、概率计算、参数训练、解码（维特比）

应用场景：

词性标注类问题（现在一般用RNN+CRF）

中文分词（发展过程，经典算法，了解开源工具jieba分词）

中文人名，地名识别

8）CRF++

▌六、命名实体识别，词性标注，内容挖掘、语义分析与篇章分析（大量用到前面的算法）

1）命名实体识别问题

python自然语言

最近，python自然语言是越来越火了，那么什么是自然语言。自然语言（Natural Language ）广纳了众多技术，对自然或人类语言进

发表于 05-02 13:50

【推荐体验】腾讯云自然语言处理

结构化抽取，有效辅助人工，降低人力参与成本。因为现在腾讯云自然语言处理产品公测免费，所以我注册了腾讯云账号去专门体验了一下，最直观的感受就是确实如产品介绍中说的：开箱即用的NLP能力，满足各种文本智能需求

发表于 10-09 15:28

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

发表于 04-16 11:11

什么是自然语言处理

什么是自然语言处理？自然语言处理任务有哪些？自然语言处理的方法是什么？

发表于 09-08 06:51

基于自然语言处理的知识检索算法研究

基于自然语言处理的知识检索算法研究_贾润亮

发表于 01-07 21:39 •1次下载

什么是自然语言处理_自然语言处理常用方法举例说明

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是

发表于 12-28 16:56 •1.8w次阅读

什么是<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>_<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>常用方法举例说明

自然语言处理怎么最快入门_自然语言处理知识了解

自然语言处理就是实现人机间自然语言通信，实现自然语言理解和自然语言生成是十分困难的，造成困难的根本原因是

发表于 12-28 17:10 •5308次阅读

自然语言处理（NLP）知识结构总结

自然语言处理知识太庞大了，网上也都是一些零零散散的知识，比如单独讲某些模型，也没有来龙去脉，学习起来较为困难，于是我自己总结了一份知识体系结构

发表于 08-29 09:58 •4696次阅读

自然语言处理的概念和应用 自然语言处理属于人工智能吗

　　自然语言处理(Natural Language Processing)是一种人工智能技术，它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言

发表于 08-23 17:31 •1545次阅读

ASR与自然语言处理的结合

ASR（Automatic Speech Recognition，自动语音识别）与自然语言处理（NLP）是人工智能领域的两个重要分支，它们在许多应用中紧密结合，共同构成了自然语言理解和生成的技术

发表于 11-18 15:19 •388次阅读

自然语言处理与机器学习的关系 自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机器学习提供了一种强大的工具，用于从大量文本数据中提取模式和知识，从而提高NLP系

发表于 12-05 15:21 •450次阅读

搜索历史

浅析自然语言处理知识体系结构

评论

python自然语言

【推荐体验】腾讯云自然语言处理

自然语言处理的分词方法

自然语言处理的语言模型

自然语言处理的词性标注方法

求自然语言处理笔记

自然语言处理——总结、习题

什么是自然语言处理

基于自然语言处理的知识检索算法研究

什么是自然语言处理_自然语言处理常用方法举例说明

自然语言处理怎么最快入门_自然语言处理知识了解

自然语言处理（NLP）知识结构总结

自然语言处理的概念和应用自然语言处理属于人工智能吗

ASR与自然语言处理的结合

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤