NLP数据增强的最新综述-电子发烧友网

摘要

作为一种有效的策略，数据增强 (data augmentation, DA) 缓解了深度学习技术可能失败的数据稀缺情况。

它广泛应用于计算机视觉，然后引入自然语言处理，并在许多任务中取得了改进。DA方法的主要重点之一是提高训练数据的多样性，从而帮助模型更好地泛化到看不见的测试数据。

在本次综述中，我们根据增强数据的多样性将 DA 方法分为三类，包括改写（paraphrasing）、噪声（noising）和采样（sampling）。我们的论文着手根据上述类别详细分析 DA 方法。此外，我们还介绍了它们在 NLP 任务中的应用以及面临的挑战。

介绍

数据扩充是指通过添加对现有数据稍作修改的副本或从现有数据中新创建的合成数据来增加数据量的方法。这些方法缓解了深度学习技术可能失败的数据稀缺情况，因此 DA 最近受到了积极的关注和需求。数据增强广泛应用于计算机视觉领域，例如翻转和旋转，然后引入自然语言处理（NLP）。与图像不同，自然语言是离散的，这使得在 NLP 中采用 DA 方法更加困难且探索不足。

最近提出了大量的 DA 方法，对现有方法的调查有利于研究人员跟上创新的速度。之前的两项调查都提供了 NLP DA 的鸟瞰图。他们直接按照方法来划分类别。因此，这些类别往往过于有限或过于笼统，例如，反向翻译和基于模型的技术。Baier在 DA 上发布仅用于文本分类的综述。在本次调研中，我们将全面概述 NLP 中的 DA 方法。我们的主要目标之一是展示 DA 的本质，即为什么数据增强有效。为了促进这一点，我们根据增强数据的多样性对 DA 方法进行分类，因为提高训练数据的多样性是 DA 有效性的主要推动力之一。我们将 DA 方法分为三类，包括改写、噪声和采样。

该论文着手根据上述类别详细分析 DA 方法。此外，还介绍了它们在 NLP 任务中的应用以及面临的挑战。

具体内容

一共分为五大部分。

全面回顾了这三个类别，并分析了这些类别中的每一种方法。还介绍了方法的特征，例如粒度和级别：

基于改写（paraphrasing）的方法

基于对句子的适当和有限制的更改，生成与原始数据具有有限语义差异的增强数据。增强数据传达与原始形式非常相似的信息。

基于噪声（noising）的方法

在保证有效性的前提下加入离散或连续的噪声。这些方法的重点是提高模型的鲁棒性。

基于抽样（sampling）的方法

掌握数据分布并对其中的新数据进行抽样。这些方法输出更多样化的数据，满足基于人工启发式和训练模型的下游任务的更多需求。

改写数据增强技术包括三个层次：词级、短语级和句子级

使用语言模型进行改写

使用规则进行改写

机器翻译改写

通过模型生成进行改写

五种基于噪声的方法的示例

基于采样的模型

不同DA方法的特点。Learnable表示方法是否涉及模型训练；online 和 offline 表示 DA 过程是在模型训练期间还是之后