0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP数据增强的最新综述

深度学习自然语言处理 来源:深度学习自然语言处理 2023-03-16 09:13 次阅读

摘要

作为一种有效的策略,数据增强 (data augmentation, DA) 缓解了深度学习技术可能失败的数据稀缺情况。

它广泛应用于计算机视觉,然后引入自然语言处理,并在许多任务中取得了改进。DA方法的主要重点之一是提高训练数据的多样性,从而帮助模型更好地泛化到看不见的测试数据。

在本次综述中,我们根据增强数据的多样性将 DA 方法分为三类,包括改写(paraphrasing)、噪声(noising)和采样(sampling)。我们的论文着手根据上述类别详细分析 DA 方法。此外,我们还介绍了它们在 NLP 任务中的应用以及面临的挑战。

介绍

数据扩充是指通过添加对现有数据稍作修改的副本或从现有数据中新创建的合成数据来增加数据量的方法。这些方法缓解了深度学习技术可能失败的数据稀缺情况,因此 DA 最近受到了积极的关注和需求。数据增强广泛应用于计算机视觉领域,例如翻转和旋转,然后引入自然语言处理(NLP)。与图像不同,自然语言是离散的,这使得在 NLP 中采用 DA 方法更加困难且探索不足。

最近提出了大量的 DA 方法,对现有方法的调查有利于研究人员跟上创新的速度。之前的两项调查都提供了 NLP DA 的鸟瞰图。他们直接按照方法来划分类别。因此,这些类别往往过于有限或过于笼统,例如,反向翻译和基于模型的技术。Baier在 DA 上发布仅用于文本分类的综述。在本次调研中,我们将全面概述 NLP 中的 DA 方法。我们的主要目标之一是展示 DA 的本质,即为什么数据增强有效。为了促进这一点,我们根据增强数据的多样性对 DA 方法进行分类,因为提高训练数据的多样性是 DA 有效性的主要推动力之一。我们将 DA 方法分为三类,包括改写、噪声和采样。

该论文着手根据上述类别详细分析 DA 方法。此外,还介绍了它们在 NLP 任务中的应用以及面临的挑战。

具体内容

一共分为五大部分。

全面回顾了这三个类别,并分析了这些类别中的每一种方法。还介绍了方法的特征,例如粒度和级别:

582b35b2-c378-11ed-bfe3-dac502259ad0.png

基于改写(paraphrasing)的方法

基于对句子的适当和有限制的更改,生成与原始数据具有有限语义差异的增强数据。增强数据传达与原始形式非常相似的信息

基于噪声(noising)的方法

在保证有效性的前提下加入离散或连续的噪声。这些方法的重点是提高模型的鲁棒性。

基于抽样(sampling)的方法

掌握数据分布并对其中的新数据进行抽样。这些方法输出更多样化的数据,满足基于人工启发式和训练模型的下游任务的更多需求。

585d9d7c-c378-11ed-bfe3-dac502259ad0.png58cd04d2-c378-11ed-bfe3-dac502259ad0.png

改写数据增强技术包括三个层次:词级、短语级和句子级

58e82c3a-c378-11ed-bfe3-dac502259ad0.png

使用语言模型进行改写

5929c14a-c378-11ed-bfe3-dac502259ad0.png

使用规则进行改写

5939ebba-c378-11ed-bfe3-dac502259ad0.png

机器翻译改写

595107be-c378-11ed-bfe3-dac502259ad0.png

通过模型生成进行改写

596b45ac-c378-11ed-bfe3-dac502259ad0.png

五种基于噪声的方法的示例

5990bd28-c378-11ed-bfe3-dac502259ad0.png

基于采样的模型

59a3474a-c378-11ed-bfe3-dac502259ad0.png

不同DA方法的特点。Learnable表示方法是否涉及模型训练;online 和 offline 表示 DA 过程是在模型训练期间还是之后

总结了提高增强数据质量的常用策略和技巧,包括方法堆叠、优化和过滤策略。

59bd1328-c378-11ed-bfe3-dac502259ad0.png

影响每个 DA 方法中增强效果的超参数

分析了上述方法在 NLP 任务中的应用,还通过时间线展示了 DA 方法的发展。

59e54820-c378-11ed-bfe3-dac502259ad0.png

5a1f8f30-c378-11ed-bfe3-dac502259ad0.png5a306922-c378-11ed-bfe3-dac502259ad0.png5a48bca2-c378-11ed-bfe3-dac502259ad0.png

介绍了数据增强的一些相关主题,包括预训练语言模型、对比学习、相似数据操作方法、生成对抗网络和对抗攻击。目标是将数据增强与其他主题联系起来,同时展示它们的不同之处。

列出了在 NLP 数据增强中观察到的一些挑战,包括理论叙述和通用方法,揭示了数据增强未来的发展方向。

公开资源

一些有用的api

5a590260-c378-11ed-bfe3-dac502259ad0.png

除了英语,也有其他语种的工具资源:

5a69f6b0-c378-11ed-bfe3-dac502259ad0.png

总结

在本文中,作者对自然语言处理的数据增强进行了全面和结构化的调研。为了检验 DA 的性质,根据增强数据的多样性将 DA 方法分为三类,包括改写、噪声和采样。这些类别有助于理解和开发 DA 方法。

还介绍了 DA 方法的特点及其在 NLP 任务中的应用,然后通过时间线对其进行了分析。

此外,还介绍了一些技巧和策略,以便研究人员和从业者可以参考以获得更好的模型性能。最后,我们将 DA 与一些相关主题区分开来,并概述了当前的挑战以及未来研究的机遇。







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1694

    浏览量

    45894
  • 自然语言处理

    关注

    1

    文章

    594

    浏览量

    13475
  • nlp
    nlp
    +关注

    关注

    1

    文章

    483

    浏览量

    21985

原文标题:NLP中关于数据增强的最新综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NLP的面试题目

    NLP面试题目6-10
    发表于 05-21 15:02

    全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较

    放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较
    发表于 05-29 10:43

    NLP的tfidf作词向量

    NLP之tfidf作词向量
    发表于 06-01 17:28

    MOS管驱动电路综述

      一、MOS管驱动电路综述  在使用MOS管设计开关电源或者马达驱动电路的时候,大部分人都会考虑MOS的导通电阻,最大电压等,最大电流等,也有很多人仅仅考虑这些因素。这样的电路也许是可以工作的,但
    发表于 11-12 09:19

    数据融合技术综述

    文章综述了多传感器数据融合的历史、发展及应用, 讨论了多传感器数据融合的基本原理、相关技术及方法、存在的问题、研究方向, 最后介绍了数据融合的应用领域, 特别是智能机
    发表于 06-22 11:30 12次下载

    NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

    本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再到如何利用机器学习进行NLP,值得一读。这是该系列的第一部分,介绍了三种
    的头像 发表于 06-10 10:26 7.7w次阅读
    <b class='flag-5'>NLP</b>的介绍和如何利用机器学习进行<b class='flag-5'>NLP</b>以及三种<b class='flag-5'>NLP</b>技术的详细介绍

    NLP-Progress库NLP的最新数据集、论文和代码

    方向是自然语言处理的同学们有福啦,为了跟踪自然语言处理(NLP)的进展,有大量仁人志士在 Github 上维护了一个名为 NLP-Progress 的库。它记录了几乎所有NLP任务的 baseline 和 标准
    的头像 发表于 11-17 09:21 2526次阅读

    NLP 2019 Highlights 给NLP从业者的一个参考

    2019年遇到的与机器学习和NLP相关的最重要的故事。我将主要关注NLP,但我还将重点介绍一些与AI相关的有趣故事。标题没有特别的顺序。故事可能包括论文,工程工作,年度报告,教育资源的发布等。 论文刊物 ML / NLP创造力与
    的头像 发表于 09-25 16:56 1678次阅读

    一种单独适配于NER的数据增强方法

      本文首先介绍传统的数据增强在NER任务中的表现,然后介绍一种单独适配于NER的数据增强方法,这种方法生成的数据更具丰富性、
    的头像 发表于 01-18 16:28 3017次阅读

    NLP事件抽取综述之挑战与展望

    本系列文章主要分享近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分: 定义(Define) 综述
    的头像 发表于 01-18 16:33 3756次阅读
    <b class='flag-5'>NLP</b>事件抽取<b class='flag-5'>综述</b>之挑战与展望

    Windows编程之数据类型综述

    Windows编程之数据类型综述
    发表于 08-24 15:03 5次下载

    基于图像的数据增强方法发展现状综述

    基于图像的数据增强能够增加训练样本的多样性,如通过翻转、添加噪声等基础图像处理操作或根据现有数据生成新的样本进行数据集扩充、数据质量的
    发表于 03-23 17:17 1690次阅读
    基于图像的<b class='flag-5'>数据</b><b class='flag-5'>增强</b>方法发展现状<b class='flag-5'>综述</b>

    几种常用的NLP数据增强方法

    因为直接对原是文本进行数据增强,很难保证维持原始的文本语义,因此可以通过在语义空间上进行隐式数据增强,简单列出几种方法:
    的头像 发表于 09-15 14:54 1686次阅读

    人工智能nlp是什么方向

    人工智能nlp是什么方向  人工智能(AI)已经日益普及,正在改变我们的方法和方式。AI 涵盖了许多领域,其中包括机器学习,计算机视觉,自然语言处理(NLP)等。在这些方向之中,NLP 是最引人注目
    的头像 发表于 08-22 16:45 1852次阅读

    nlp神经语言和NLP自然语言的区别和联系

    来改变我们的行为和情感。NLP的目标是帮助人们实现自我改进,提高沟通技巧,增强领导力和解决问题的能力。 NLP的主要组成部分包括: 感知:了解我们如何接收和处理信息。 语言:研究我们如何使用语言来表达我们的思想和情感。 编程:研
    的头像 发表于 07-09 10:35 669次阅读