0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自然语言处理中的事件抽取综述

深度学习自然语言处理 来源:深度学习自然语言处理 作者:lucy 2021-01-07 15:08 次阅读

本系列文章主要总结近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分:

定义(Define)

综述(Survey)

模型(Models)

数据集(Datasets)

挑战与展望(Future Research Challenges)

Github地址:https://github.com/xiaoqian19940510/Event-Extraction

任务定义

Closed-domain

Closed-domain事件抽取使用预定义的事件模式从文本中发现和提取所需的特定类型的事件。事件模式包含多个事件类型及其相应的事件结构。D.Ahn首先提出将ACE事件抽取任务分成四个子任务:触发词检测、事件/触发词类型识别、事件论元检测和参数角色识别。我们使用ACE术语来介绍如下事件结构:

「事件提及」:描述事件的短语或句子,包括触发词和几个参数。

「事件触发词」:最清楚地表达事件发生的主要词,一般指动词或名词。

「事件论元」:一个实体,时间表达式,作为参与者的值和在事件中具有特定角色的属性。

「论元角色」:论元与它所参与的事件之间的关系

Open domain

在没有预定义的事件模式的情况下,开放域事件抽取的目的是从文本中检测事件,在大多数情况下,还可以通过提取的事件关键词聚类相似的事件。事件关键词指的是那些主要描述事件的词/短语,有时关键词还进一步分为触发器和参数。

「故事分割」:从新闻中检测故事的边界。

「第一个故事检测」:检测新闻流中讨论新话题的故事。

「话题检测」:根据讨论的主题将故事分组。

「话题追踪」:检测讨论先前已知话题的故事。

「故事链检测」:决定两个故事是否讨论同一个主题。

前两个任务主要关注事件检测;其余三个任务用于事件集群。虽然这五项任务之间的关系很明显,但每一项任务都需要一个不同的评价过程,并鼓励采用不同的方法来解决特定问题。

综述

元事件抽取研究综述, 2019[1]

事件抽取是信息抽取领域的一个重要研究方向,在情报收集、知识提取、文档摘要、知识问答等领域有着广泛应用。写了一篇对当前事件抽取领域研究得较多的元事件抽取任务的综述。

首先,简要介绍了元事件和元事件抽取的基本概念,以及元事件抽取的主要实现方法。然后,重点阐述了元事件抽取的主要任务,详细介绍了元事件检测过程,并对其他相关任务进行了概述。最后,总结了元事件抽取面临的问题,在此基础上展望了元事件抽取的发展趋势。

An Overview of Event Extraction from Text, 2019[2]

文本挖掘的一个常见应用是事件抽取,它包括推导出与事件相关的特定知识,这些知识重新映射到文本中。事件抽取可处理各种类型的文本,如(在线)新闻消息、博客和手稿。本文献回顾了用于各种事件抽取目的的文本挖掘技术。它提供了关于如何根据用户、可用内容和使用场景选择特定事件抽取技术的一般指南。

A Survey of Event Extraction from Text, 2019[3]

事件抽取的任务定义、数据源和性能评估,还为其解决方案方法提供了分类。在每个解决方案组中,提供了最具代表性的方法的详细分析,特别是它们的起源、基础、优势和弱点。最后,对未来的研究方向进行了展望。

A Survey of Textual Event Extraction from Social Networks, 2017[4]

过去的十年中,在社交网络上挖掘文本内容以抽取相关数据和有用的知识已成为无所不在的任务。文本挖掘的一种常见应用是事件抽取,它被认为是一个复杂的任务,分为不同难度的多个子任务。

在本文中,对现有的主要文本挖掘技术进行了概述,这些技术可用于许多不同的事件抽取目标。首先,介绍基于统计模型将数据转换为知识的主要数据驱动方法。其次,介绍了基于专家知识的知识驱动方法,通常通过基于模式的方法来抽取知识。然后,介绍结合了数据驱动和知识驱动方法的主要现有混合方法。最后,比较社交网络事件抽取研究,概括了每种提出的方法的主要特征。

A Survey of event extraction methods from text for decision support systems, 2016[5]

事件抽取是一种可以追溯到20世纪80年代的专门的信息抽取流程,由于大数据的出现以及文本挖掘和自然语言处理等相关领域的发展,事件抽取技术得到了极大的普及。然而,到目前为止,对这一特殊领域的概述仍然是难以捉摸的。

因此,总结了文本数据的事件抽取技术,划分成数据驱动、知识驱动和混合方法三类,并对这些方法进行了定性评价。此外,还讨论了从文本语料库中抽取事件的常见决策支持应用。最后,对事件抽取系统的评价进行了阐述,并指出了当前的研究问题。

数据集

英文数据集

ACE2005 English Corpus[6]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

Rich ERE[7]

Rich ERE扩展了实体、关系和事件本体,并扩展了什么是taggable的概念。Rich ERE还引入了事件跳跃的概念,以解决普遍存在的事件共引用的挑战,特别是关于在文档内和文档之间的事件提及和事件参数粒度变化,从而为创建(分层的或嵌套的)跨文档的事件表示铺平了道路。

TAC2015[8]

TAC KBP事件跟踪的目标是提取关于事件的信息,以便这些信息适合作为知识库的输入。轨迹包括用于检测和链接事件的事件块任务,以及用于提取属于同一事件的事件参数和链接参数的事件参数(EA)任务。2015年TAC KBP赛事轨迹分为5个子任务

KBP2017[9]

TAC知识库填充(KBP)的目标是开发和评估从非结构化文本中填充知识库的技术。KBP包括为KBP开发特定组件和功能的组件跟踪,以及称为“冷启动”的端到端KB构建任务,该任务通过在技术成熟时集成选定的组件从头开始构建KB。与在冷启动KB任务中执行的功能相比,组件跟踪中所需的功能可以“更多”,也可以“更少”。组件轨道比冷启动“更多”,因为每个轨道可能探索未立即集成到冷启动任务中的试点任务; 他们是“少”,将组件集成到一个KB需要额外协调与和解各个组件之间的不匹配,这样KB符合知识库模式(例如,知识库不能断言一个实体是一个事件的“地方”如果它还断言,实体是一个“人”)。

其他的还有,Genia2011 dataset, Spainish ERE Corpus, Wikipedia article, BioNLP Cancer Genetics (CG) Shared Task 2013 等等

中文数据集

ACE2005 Chinese Corpus[10]

ACE 2005多语种训练语料库包含了用于2005年自动内容抽取(ACE)技术评价的完整的英语、阿拉伯语和汉语训练数据集。语料库由语言数据联盟(LDC)为实体、关系和事件注释的各种类型的数据组成,该联盟得到了ACE计划的支持和LDC的额外帮助。

未来展望与挑战

数据层面

领域数据难构造,标注成本大

生成标注数据 or 无标注式事件抽取论元

模型层面

pipeline方式存在错误信息的传递,如何减小错误信息传递

论元之间的关联关系的有效利用

性能评估层面

无标注数据的评价指标设计

责任编辑:xj

原文标题:超全必读!事件抽取综述(上)

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6874

    浏览量

    88801
  • 自然语言处理

    关注

    1

    文章

    611

    浏览量

    13504

原文标题:超全必读!事件抽取综述(上)

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是LLM?LLM在自然语言处理的应用

    所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术,尤其是变换器(Transformer)架构。变换器模型因其自注意力(Self-Attention)机制而闻名,这种机制使得模型能够捕捉文本的长距
    的头像 发表于 11-19 15:32 270次阅读

    ASR与自然语言处理的结合

    ASR(Automatic Speech Recognition,自动语音识别)与自然语言处理(NLP)是人工智能领域的两个重要分支,它们在许多应用紧密结合,共同构成了自然语言理解和
    的头像 发表于 11-18 15:19 261次阅读

    自然语言处理与机器学习的区别

    在人工智能的快速发展自然语言处理(NLP)和机器学习(ML)成为了两个核心的研究领域。它们都致力于解决复杂的问题,但侧重点和应用场景有所不同。 1. 自然语言
    的头像 发表于 11-11 10:35 327次阅读

    图像识别技术包括自然语言处理

    计算机视觉技术对图像进行处理、分析和理解,从而实现对图像的目标、场景、行为等信息的识别和理解。图像识别技术包括图像预处理、特征提取、分类器设计、模型训练等多个环节。 1.2 自然语言
    的头像 发表于 07-16 10:54 620次阅读

    自然语言处理前馈网络综述

    多层感知器(MLP)和卷积神经网络(CNN),在这一领域扮演着关键角色。以下是对自然语言处理前馈网络的详细阐述,包括其基本原理、在NLP的应用、优势、挑战以及未来发展方向。
    的头像 发表于 07-12 10:10 272次阅读

    Transformer架构在自然语言处理的应用

    随着人工智能技术的飞速发展,自然语言处理(NLP)领域取得了显著的进步。其中,Transformer架构的提出,为NLP领域带来了革命性的变革。本文将深入探讨Transformer架构的核心思想、组成部分以及在自然语言
    的头像 发表于 07-09 11:42 691次阅读

    自然语言处理技术有哪些

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言自然语言
    的头像 发表于 07-03 14:30 935次阅读

    自然语言处理模式的优点

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、生成和处理人类语言。随着技术的发展,
    的头像 发表于 07-03 14:24 641次阅读

    自然语言处理技术的核心是什么

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,其核心目标是使计算机能够理解、生成和处理人类语言。NLP技术的发展已经取
    的头像 发表于 07-03 14:20 570次阅读

    自然语言处理是什么技术的一种应用

    自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的一个分支,它涉及到使用计算机技术来处理、分析和生成
    的头像 发表于 07-03 14:18 607次阅读

    自然语言处理包括哪些内容

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机与人类语言之间的交互。NLP的目标是让计算机能够理解、生成和处理
    的头像 发表于 07-03 14:15 718次阅读

    自然语言处理属于人工智能的哪个领域

    之间的交互,旨在使计算机能够理解、生成和处理自然语言自然语言处理:人工智能的皇冠上的明珠 引言 人工智能作为一门跨学科的研究领域,涵盖了计算机科学、数学、心理学、
    的头像 发表于 07-03 14:09 1120次阅读

    什么是自然语言处理 (NLP)

    自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要分支,它专注于构建能够理解和生成人类语言的计算机系统。NLP的目标是使计算机能够像人类一样
    的头像 发表于 07-02 18:16 1033次阅读

    自然语言处理技术的原理的应用

    自然语言处理(Natural Language Processing, NLP)作为人工智能(AI)领域的一个重要分支,旨在使计算机能够理解和处理人类自然语言。随着互联网的普及和大数据
    的头像 发表于 07-02 12:50 442次阅读

    神经网络在自然语言处理的应用

    自然语言处理(NLP)是人工智能领域中的一个重要分支,它研究的是如何使计算机能够理解和生成人类自然语言。随着人工智能技术的飞速发展,神经网络在自然语言
    的头像 发表于 07-01 14:09 429次阅读