0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是句法分析

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2020-11-24 09:36 次阅读

自然语言处理课程的第二天今天总算是补完了,课程的时间有限,但是内容繁多,而且都是能深挖的大坑,我的主要研究重点不在这里,所以无法展开,下面是我对这次课的简单介绍和笔记,来自深蓝学院。

什么是句法分析 1

按照百度百科的解释就是指对句子中的词语语法功能进行分析,例如“我来晚了”中,“我”是主语,“来”是谓语,“晚了”就是补语。这块内容其实在语言学等领域已经有比较深入的研究,但是随着数据的逐渐增多,这种分析就需要利用计算机自动化,句法分析就是这样诞生的。

那么句法分析到底有什么用呢?句法分析的结果是一句话的句子成分分析,其实就可以用来做知识发现和挖掘,例如“张三是李四的儿子”,通过句法分析,能够知道主谓宾等关系,能够抽取具体的消息,例如这里能够获取一个关系——张三和李四是父子关系,根据这些知识,无论是做知识图谱,还是做问答机器人等,都有大的作用,可见,句法分析是知识抽取的重要基础。

句法分析的评价指标 2

要深入研究句法分析,首先要知道,什么样的句法分析算是好的句法分析,所以句法分析方法的评价是首要思考的问题,目前进行句法分析,主要是用依存句法分析,其具体的评价指标有下面5种。

无标记依存正确率(UAS):所有词中找到正确的头词所占的百分比,对于没有头词的根节点,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

根正确率(RA):所有句子中找到正确根的句子所占的百分比(Yamada and Matsumoto, 2003)

完全匹配率(CM):所有句子中无标记依存结构完全正确的句子所占的百分比(Yamada and Matsumoto, 2003)

带标记依存正确率(LAS):所有词中找到正确的头词并分配到正确标记的词所占的百分比,对于没有头词的根节点,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

标记正确率(LA):所有词中依存标记正确的词所占的百分比,只要根节点是对的,也将这个根节点算作其中(Nivre et al., 2004)

对现行方法的简单评价 3

首先看看英文的,英文毕竟是目前自然语言处理的主力和焦点,而且英语具有相对严禁的语法结构。

本身UAS的定义相比CM,就较弱,而且USA是无监督的方法,所以会比CM的正确率高很多。从CM看来,正确率不足50%,其实并不高,可见依存句法分析任重道远。

然后看中文,中文的自然语言处理相对比较难,一方面是中文本身的语法特性,另一方面中文分词的时候本就有误差,再进行句法分析会产生误差叠加。

可以明显地看到,UAS和CM相比英文会更加低,说明中文的难度会比英文高,目前的潜力仍比较强。

综上所述,目前虽然已经有比较丰富的方法,但是准确度还有比较大的上升空间。

句法分析的主要方法 4

纠结了很久,想了要怎么写,要是详细些,这就不是公众号,是书了,要是不详细写,又怕你们骂我,于是我想了一个比较中和的方案,那就是我弄综述,参考文献给你们,有兴趣的你们自己去看,你们觉得怎么样?

句法分析,尤其针对依存句法分析,主要有基于动态规划,基于决策,基于融合的方法,当然还有一些扩展性的方法。

基于动态规划的方法

基于动态规划的方法,其实就是直接对依存树进行分析。早期,采用的方法是将依存图中的节点看作短语结构中的节点,从而可以应用上下文无关文法中成熟的CKY算法(Gaifman, 1965),然而时间复杂度非常可怕地达到了O(n5),后来提出了双词汇语法,其方法主要分为产生式方法(Eisner, 1996)和判别式方法(McDonald et al., 2005; McDonald, 2006),成功地将复杂度降低到O(n3)。

生成式和判别式和机器学习里面的生成和判别相同,生成式方法采用联合概率模型生成一系列依存句法树并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后的输出,说白了就是把概率分布求出来,然后根据概率分布进行下一步的分析和决策,在句法分析中将词与词之间的依存关系看作是成分结构,用类似于短语结构句法分析的方法来获取依存关系,其优点是能够得到每种决策的概率关系,决策更加全面,但是缺点是毕竟在相同的信息下,相比判别式整体决策精度可能会下降,其信息消耗花在进行计算概率分布上太多,导致最后拍板的时候受到约束。

判别式将依存分析看作是在一个依存图上寻找最大生成树(MST)的问题,该生成树满足上述三个约束条件:连通、单一父节点、无环,并不需要求概率分布,相比生成式,其优点是操作更为简单,可以运用更多的机器学习方法,而且出现下溢的情况更少(计算机在计算10的负好多次方的时候会出现下溢情况,精度会大大下降),复杂度相对较低,最终精度偏高。

基于决策的方法

基于决策的方法把分析过程看成是分析序列,建立词之间的联系,Covington(2001) 将决策的过程从句子的左端开始,逐个接受每个词,并尝试连接每个词与先前的词并将其作为头词或依存词,这种算法简单易懂,但是穷举法计算低效而且受到语料库约束较大;Yamada和Matsumoto(2003)通过将关系分为左依存、右依存和无依存三种情况进行动作分析从而得到句法结构;Nivre和Scholz(2004)在Yamada和Matsumoto(2003)的基础上提出新的数据结构和动作分析方法,依存句法分析器主要由一个三元组构成,其中S表示一个栈结构, I表示剩余输入词序列, A表示在当前分析状态下所得到的依存关系集合,将动作从原来的3个升级为Left-arc, right-arc, reduce, shift四个。

从整体而言,基于决策的方法模型直观清晰,但是决策过程是贪婪的,局部的,精度收到很大限制,误差还会传递,所以仍存在较大问题。

基于融合的方法

机器学习中有基本的支持向量机、决策树等优秀的方法,但是却各有问题,于是提出了bagging,而基于融合的方法,将上述两个方法的优点结合。

基于搜索策略融合的方法(Duan et al., 2007)认为整个决策式依存句法分析过程可以看作是马尔科夫链。在每一步分析中会有若干个候选分析动作。句法分析的目标是在马尔科夫假设下寻找最有可能的分析动作序列,这样既可以利用丰富的上下文特征,又从全局的视角对决策动作建模,而算法的复杂度介于决策式方法和动态规划方法之间。按照他的说法进行实验得到的精度是这样的,可见优化了不少。

基于特征的融合方法(Nivre and McDonald, 2008)在McDonald和Nivre(2007)的“不同的句法分析器产生不同的错误”观点下提出两种思路,如下图所示(符号太复杂所以我就截图了):

最后还有基于模型的融合方法,Zhang和Clark(2008)将动态规划的方法和决策的方法进行加权组合。

扩展性工作

受限于树库规模较小,尤其是有标注的材料太少,所以句法分析的性能一直受到严重限制,目前有部分学者开始在有限的标注材料和较多的无标注材料下,使用半监督或者无监督的方法。

面临的挑战 5

前人尚且已经在句法分析上有丰硕的成果,但是下面几个方面仍有巨大的研究价值和研究潜力。

句法分析的准确度仍十分有限;

句法分析的评价指标是否合理目前尚无定论,CoNLL仍有一些问题,而且有人针对多个角度,例如语种等,有无更加灵活的机制;

句法分析的鲁棒性仍不够高,和评价指标的灵活性类似;

句法分析的速度,目前仍无法投入大数据的实现,然而速度和精度的两大矛盾体的存在性导致两者相互制约;

运用在互联网中的研究仍处起步阶段,主要针对句法分析的下游技术,面向信息抽取的句法分析,面向社区问答的句法分析等;

句法分析并不是上游技术,需要依赖分词、词性标注等关键技术,这些技术同样具有较大误差等问题,于是误差的传递下句法分析的性能受到较大约束。

小结 6

句法分析不是我的主要研究重点,也没太关注过这个重点,经过一些相关材料的阅读和学习,感觉还是有很大的研究空间,后续可能会有一些深入的阅读,扩充自己的知识面,也让自己应对各种问题多了一把新的有力武器。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4608

    浏览量

    92844
  • CM
    CM
    +关注

    关注

    0

    文章

    28

    浏览量

    23107
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13553

原文标题:句法分析综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    频谱分析仪与信号分析仪的区别

    在现代电子通信领域,频谱分析仪和信号分析仪是两种不可或缺的测试工具。它们都用于测量和分析信号的特性,但它们的功能、应用和工作原理存在显著差异。 一、定义与基本原理 频谱分析仪 是一种用
    的头像 发表于 11-27 15:26 448次阅读

    贴片电容MLCC失效分析----案例分析

    贴片电容MLCC失效分析----案例分析
    的头像 发表于 10-25 15:42 388次阅读
    贴片电容MLCC失效<b class='flag-5'>分析</b>----案例<b class='flag-5'>分析</b>

    Keysight 频谱分析仪(信号分析仪)

    Keysight频谱分析仪(信号分析仪)足够的性能和卓越的可靠性,帮助您更轻松、更快速地应对常见的射频-微波测试测量挑战。可靠的频谱分析仪和信号分析仪提供准确可信的测量结果无论您是要在
    的头像 发表于 09-12 08:10 468次阅读
    Keysight 频谱<b class='flag-5'>分析</b>仪(信号<b class='flag-5'>分析</b>仪)

    tina仿真的噪声分析,可以分析电流噪声吗?

    tina仿真的噪声分析,可以分析电流噪声吗
    发表于 08-06 08:23

    电路的瞬态分析和暂态分析区别

    在电子电路分析中,瞬态分析和暂态分析是两种重要的分析方法。它们分别用于研究电路在不同时间尺度上的行为。 瞬态分析 瞬态
    的头像 发表于 07-26 09:30 1614次阅读

    递归神经网络的实现方法

    (Recurrent Neural Network,通常也简称为RNN,但在此处为区分,我们将循环神经网络称为Recurrent RNN)不同,递归神经网络更侧重于处理树状或图结构的数据,如句法分析树、自然语言的语法结构等。以下将从递归神经网络的基本概念、工作原理、实现方法以及应用场景等方面进行详细阐述。
    的头像 发表于 07-10 17:02 313次阅读

    数据分析有哪些分析方法

    数据分析是一种重要的技能,它可以帮助我们从大量的数据中提取有价值的信息,从而做出更明智的决策。在这篇文章中,我们将介绍数据分析的各种方法,包括描述性分析、诊断性分析、预测性
    的头像 发表于 07-05 14:51 569次阅读

    自然语言处理过程的五个层次

    和语法结构。 词法分析包括分词(Tokenization)、去除停用词(Stopword Removal)、词干提取(Stemming)和词形还原(Lemmatization)等过程。 句法分析
    的头像 发表于 07-03 14:27 589次阅读

    自然语言列举法描述法各自的特点

    自然语言文本。在自然语言处理中,列举法和描述法是两种常见的方法。 列举法 列举法是一种基于规则的方法,它通过列举所有可能的情况来解决问题。在自然语言处理中,列举法通常用于词性标注、命名实体识别、句法分析等任务。列举法的特点如下: 1.1 规则性 列举法的核心
    的头像 发表于 07-03 14:13 1035次阅读

    信号分析设备可分析的频率低于磁带频率吗

    本文主要介绍了信号分析设备的基本原理、类型和应用。特别关注了信号分析设备在分析低于磁带频率的信号时的性能和限制。 引言 信号分析设备在通信、电子、电气工程等领域具有广泛的应用。它们可以
    的头像 发表于 06-03 10:52 412次阅读

    信号分析的目的意义是什么

    信号分析的目的意义是什么? 信号分析是一种研究信号特性、提取有用信息和进行信号处理的方法。它在许多领域都有广泛的应用,如通信、电子、控制、医学、地质勘探等。本文将详细介绍信号分析的目的意义,包括信号
    的头像 发表于 06-03 10:31 1204次阅读

    信号分析的基本思想是什么

    信号分析是一种研究信号特性、提取有用信息的方法。它在通信、电子、控制、生物医学等领域具有广泛的应用。本文将详细介绍信号分析的基本思想、方法和应用。 一、信号分析的基本思想 信号分析的基
    的头像 发表于 06-03 10:28 744次阅读

    信号分析的方法有哪些种类

    信号分析是研究信号特性、提取信号信息和处理信号的一种技术。信号分析方法有很多种,本文将详细介绍一些常见的信号分析方法。 时域分析 时域分析
    的头像 发表于 06-03 10:25 1122次阅读

    信号分析仪与频谱分析仪的区别

    在电子工程、通信、无线电以及生物医学等多个领域中,信号分析仪和频谱分析仪都是至关重要的测量和分析工具。虽然两者在功能和应用上有一定的重叠,但它们在设计和应用上存在着显著的差异。本文将对信号分析
    的头像 发表于 05-17 14:21 2113次阅读

    NLP领域的语言偏置问题分析

    摘要进行全面的统计分析,发现不同语言背景的作者在写作中的词汇、形态、句法和连贯性方面有明显的差异,这表明NLP领域存在语言偏置的可能性。因此,我们提出了一系列建议,以帮助学术期刊和会议的出版社改进他们对论文作者的指南和资源,以增强学术研究的包容性和公平性。
    的头像 发表于 01-03 11:00 435次阅读
    NLP领域的语言偏置问题<b class='flag-5'>分析</b>