0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种灵活有效的事件抽取数据增强框架-Mask-then-Fill

深度学习自然语言处理 来源:NLP工作站 2023-02-08 13:54 次阅读

写在前面

今天给大家带来一篇事件抽取数据增强方法,全名为《Mask-then-Fill: A Flexible and Effective Data Augmentation Framework for Event Extraction》,即一种灵活有效的事件抽取数据增强框架-Mask-then-Fill。

介绍

事件抽取,即从非机构化文本中抽取指定的事件的触发词及其事件要素,为了减轻人工标注,常采用数据增强方法,对原有数据进行扩充,在有限的数据内,尽可能提高模型的效果及泛化性。目前,自然语言处理的数据增强方法主要分为两类:(1)修改原有训练数据样本;(2)生成+采样。而事件抽取任务需要在保持事件结构(触发器和参数)不变的情况下增加训练数据,因此“生成+采样”的方法并不适用,本论文主要采用“修改原有训练数据样本”方法进行数据增强。

3033a324-a76b-11ed-bfe3-dac502259ad0.png

如图1所示,现有对事件抽取进行数据增强的方法主要包括:(1)回译;(2)同义词替换;(3)BERT换词。但,同义词替换和回译方法缺乏语义多样性,只能生成语义相似的样本;而基于BERT的方法只能替换单词,不能改变语法,不能生成包含各种表达式的样本。

为了解决数据增强多样性的问题,该论文提出了“掩码-填充”方法,在保持原事件结构不变的情况下生成更多样化的数据。首先定义两种类型文本片段:(1)事件相关片段(触发词和事件要素);(2)附加片段。然后随机掩码一个附件片段,最后采用微调后的T5模型进行文本填充。

并且引入亲和度(Affinity)和多样性(Diversity)两个指标进行进一步研究,发现Mask-then-Fill方法增强的数据具有更好的多样性和更少的分布变化,在多样性和分布相似性之间实现了良好的平衡。

Mask-then-Fill Framework

掩码-填充框架如图2所示,文本主要包括事件相关片段(带颜色内容)和附加片段(带下划线内容),框架的核心是在不引入新的事件前提下,重写整个附属片段。

307220ae-a76b-11ed-bfe3-dac502259ad0.png

pYYBAGPjOXOADRWCAAHj4fhtt_8267.jpg

Experimental Setup

采用ACE2005数据集上进行对比实验,从训练集中随机抽取1000、4000和8000个样本来模拟低资源设置,创建小型、中型和大型训练集。并在数据增强时,仅对训练数据集进行数据增强,开发集和测试集保持不变。

Text2Event模型和Text2Event模型两个具有代表性的事件抽取模型上进行实验,并对比与同义词替换、回译、BERT模型三种数据增强方法之间的差异。

Results and Analysis

如表1所示,整体上Mask-then-Fill方法最优。308fd6da-a76b-11ed-bfe3-dac502259ad0.png

从表2可以看出,我Mask-then-Fill方法增强的数据具有更好的多样性和更少的分布偏移,在多样性和分布相似性之间取得了平衡。

30ad54da-a76b-11ed-bfe3-dac502259ad0.png

图3展示了由不同的数据增强方法生成的示例。

30c3ed8a-a76b-11ed-bfe3-dac502259ad0.png

总结

该框架的主要优点在于可以将文本中任意长度的片段替换为可变长度的片段,而现有的方法只能替换单个单词或固定长度的片段。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • J-BERT
    +关注

    关注

    0

    文章

    5

    浏览量

    7785
  • 触发器
    +关注

    关注

    14

    文章

    1995

    浏览量

    61009
  • ACE
    ACE
    +关注

    关注

    0

    文章

    21

    浏览量

    10634
  • Fill
    +关注

    关注

    0

    文章

    4

    浏览量

    2867

原文标题:事件抽取数据增强方法-Mask-then-Fill

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    CIC抽取滤波器MATLAB仿真和FPGA实现

    文章主要讲CIC理论基础,下个文章讲FPGA实现。级联积分梳状滤波器又称CIC。这是多速率信号处理中一种结构简单的滤波器,只需要加法器和寄存器即可实现,可以灵活的设置抽取因子和插值因子,并且CIC是
    发表于 08-17 08:27

    怎样去设计一种CIC抽取滤波器并对其进行MATLAB仿真呢

    为什么要设计一种理想滤波器呢?CIC抽取滤波器是由哪些部分组成的?怎样去设计一种CIC抽取滤波器并对其进行MATLAB仿真呢?
    发表于 11-19 07:29

    如何去实现一种ThreadX内核框架的设计呢

    ThreadX内核模板框架是怎样去设计的?如何去实现一种ThreadX内核框架的设计呢?
    发表于 11-29 07:08

    怎样去建立一种IIC数据采集USART串口通信框架

    I2C串行总线的硬件结构是怎样构成的?怎样去建立一种IIC数据采集USART串口通信框架呢?
    发表于 12-10 07:19

    一种较通用的界面切换框架分享,绝对实用

    一种较通用的界面切换框架分享,绝对实用
    发表于 12-27 06:02

    一种基于复用组件的WEB测控软件框架设计

    运用组件复用的思想,结合XML技术,设计开发了一种基于可复用的组件库的Web测控软件框架。通过使用该软件框架中提供的丰富的组件库和灵活的插件管理机制,大大地降低了基于WE
    发表于 06-06 14:51 17次下载

    一种基于XML的可复用Web图表框架

    软件复用是提高软件开发效率及产品质量的条行之有效的途径。本文采用工厂方法和迭代器设计模式设计了一种基于XML和JFreeChart的可复用Web图表框架。该
    发表于 03-01 15:47 17次下载

    有限状态机的一种实现框架

    通过引入良好的数据结构和事件触发机制提出了一种面向对象的高度结构化的FSM 实现框架 并给出了事件触发转换的调度算法。新框架清晰地表达了FSM中的所有主要元素及它们之间的关系 并将行为
    发表于 03-22 15:24 1次下载

    一种基于时钟抽取偏置电压技术的存储器位线_杨泽重

    一种基于时钟抽取偏置电压技术的存储器位线_杨泽重
    发表于 01-07 21:45 0次下载

    一种成分取证的理论分析模式的分类框架

    一种成分取证的理论分析模式的分类框架
    发表于 03-20 11:04 0次下载

    一种新的DSA图像增强算法

    DSA是一种重要的医学诊断和介入治疗的技术,DSA图像质量对于医生确定病情具有重要意义。现提出了一种新的DSA图像增强算法来提高DSA图像的质量,即对图像进行前期去噪,后期增强的方法。
    发表于 11-15 15:50 22次下载
    <b class='flag-5'>一种</b>新的DSA图像<b class='flag-5'>增强</b>算法

    一种单独适配于NER的数据增强方法

      本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的
    的头像 发表于 01-18 16:28 3018次阅读

    一种基于框架特征的共指消解方法

    基于框架语义的推理是实现语篇理解、冋答系统等任务中语义理解的一种有效手段,框架语乂推理通过构建汉语篇章句子框架之间的联系寻找推理路径,但
    发表于 03-19 11:35 7次下载
    <b class='flag-5'>一种</b>基于<b class='flag-5'>框架</b>特征的共指消解方法

    一种用于交通流预测的深度学习框架

    学习框架方面,针对道路网络非欧氏的空间关联以及交通流时序数据的时间关联,设计了一种融合图卷积神经网络和循环神经网络的特征抽取子网络;另
    发表于 04-14 15:54 3次下载
    <b class='flag-5'>一种</b>用于交通流预测的深度学习<b class='flag-5'>框架</b>

    StarRC教程-如何基于Dummy/Metal Fill GDS抽取寄生RC文件

    Metal Fill或者说Dummy Metal对Timing是有影响的,在比较老的工艺、规模比较小的Design中影响是比较小的,甚至不考虑它们对于Timing的影响去流片也不是说定不行(当然
    的头像 发表于 12-08 10:00 6375次阅读