0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种为小样本文本分类设计的结合数据增强的元学习框架

深度学习自然语言处理 来源:南大NLP 作者:孙鹏飞 2021-05-19 15:54 次阅读

01

研究背景及动机

近些年,元学习已经成为解决小样本问题的主流技术,并且取得不错的成果。然而,由于现有的元学习方法大多数集中在图像分类上,而对文本分类上的关注比较少。与图像不同,同一类别中文本具有多种表达方式,这使得当前元学习方法的性能更容易受到每个类别样本数(即shot的数量)的影响。因此,现有的元学习方法很难在小样本文本分类上取得令人满意的结果。

为了解决这个问题,我们在元学习中引入了数据增强,它带来的好处是我们可以产生增强样本以增加新类别的样本数量,并使训练样本多样化。然而,这带来了一个新的挑战,如何在小样本的情况下产生置信度高的样本?

为此,我们提出了一种新颖的数据增强方法,称为Ball generator,图1给出了一个简单的例子。首先,我们计算支持集的最小包围球,并在该球中合成样本。我们认为该球中的样本具有较高的置信度,因为所有支持集样本都包含在该球中,并且它们与球心的最远距离最小。

其次,为避免合成样本偏差的影响,我们引入了变换模块,以使合成样本靠近自己的球心,并远离其他球心。此外,我们还提出了一个新的基于数据增强的元学习框架(MEta-Learning with Data Augmentation,MEDA),以联合训练ball generator和meta-learner,使二者协同进化。与普通元学习相比,通过增加新类别的样本数量,有效地提高了meta-learning在小样本情况下的泛化能力。

950a13b4-b4a6-11eb-bf61-12bb97331649.png

图1:Ball generator示例

02

MEDA

MEDA的框架如图2所示。它是两模块组成:一个是ball generator模块,它负责利用支持集生成增强支持集,并得到扩展支持集。另一个模块是meta-learner,它在给定了扩展支持集的条件下计算每个查询实例在类别上的概率分布,表示为。而不同的meta-learner的区别在于如何实现。这里我们选择原型网络和关系网络作为MEDA的meta-learner。

9536f29e-b4a6-11eb-bf61-12bb97331649.png

图2: MEDA

其中,ball generator是一种特征空间数据增强方法。它的核心思想是在特征空间中进行样本的合成,并对合成的样本进行调整。因此,整个ball generator由两个子模块组成:合成模块和变换模块。

合成模块利用空间采样算法获得相应的合成样本。具体是将采样空间限制为支持集的最小包围球,这里是球心,是半径。然后,通过如下公式计算得到合成样本:

95bedefc-b4a6-11eb-bf61-12bb97331649.png

这里,和。

变换模块,它是为了进一步避免合成样本偏差的影响,在特征空间中对合成的样本进行变换操作,使合成样本更接近自己类别的球心,而远离其他球心。因此,我们将变换操作写成函数,该函数以合成样本作为输入,产生一个增强样本作为输出。

03

实验

本文的实验是在SNIPS和ARSC数据集上进行的。我们将MEDA与三组baseline模型进行了比较。第一组是数据增强的模型;第二组是传统的元学习模型;第三组是最新的小样本文本分类的SOTA模型。实验结果如表1和2所示。

表1:SNIPS实验结果

9634ec8c-b4a6-11eb-bf61-12bb97331649.png

表2: ARSC实验结果

967c6e36-b4a6-11eb-bf61-12bb97331649.png

从实验结果上来看,由于通过数据增强获得更多的训练样本,使得MEDA在两个数据集上都取得一致且显著的提升。

为了更进一步说明模型的shot数量对模型的影响,我们设计相应的实验。如图3所示,我们可以观察到MEDA在所有设置中都取得了最好的表现。特别地,MEDA的准确率随着shot数量的减少而增加(间距变大),这表明当shot数相对较小时,模型效果的提升更明显。

96bf7cc6-b4a6-11eb-bf61-12bb97331649.png

图3: 不同shot数量对模型准确率的影响

此外,我们还研究了模型的准确性如何随着增强样本数量的变化而变化。我们画出不同模型在SNIPS数据集上的准确率变化情况。如图4所示:

970f03f4-b4a6-11eb-bf61-12bb97331649.png

图4: 不同模型的平均准确率随增强样本数量的变化而变化

可以看到,随着增强样本数量的增加,模型的准确率有所提高。同时,我们比较5-shot和10-shot的实验设置,我们发现通过模型增强5个样本与使用5个真实样本的效果几乎相同,这意味着我们的MEDA不是简单地复制样本,而是为模型生成有意义的样本。

04

总结

在本文中,我们提出了一种新颖的数据增强方法,称为ball generator,以增加新类别的样本数量。此外,我们还提出了一个新的框架MEDA,该框架联合优化了ball generator和meta-learner,从而使ball generator可以学习生成最适合meta-learner的增强样本。更多的细节、结果以及分析请参考原论文。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6874

    浏览量

    88801
  • 函数
    +关注

    关注

    3

    文章

    4304

    浏览量

    62413

原文标题:IJCAI2021论文:MEDA:一种为小样本文本分类设计的结合数据增强的元学习框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HarmonyOS NEXT应用服务开发Intents Kit(意图框架服务)习惯推荐方案概述

    、习惯推荐是HarmonyOS学习用户的行为习惯后做出的主动预测推荐。 1.开发者将用户在应用/服务内的使用行为向HarmonyOS共享,使得HarmonyOS可以基于共享的数据
    发表于 11-19 17:59

    HarmonyOS NEXT应用服务开发Intents Kit(意图框架服务)本地搜索方案概述

    本地搜索”特性例,当用户在使用音乐应用/服务产生行为时,应用/服务可以将音乐的数据通过意图框架API接口共享到HarmonyOS。这里的音乐
    发表于 11-06 10:59

    雷达的基本分类方法

    电子发烧友网站提供《雷达的基本分类方法.pdf》资料免费下载
    发表于 09-11 09:09 6次下载

    利用TensorFlow实现基于深度神经网络的文本分类模型

    要利用TensorFlow实现个基于深度神经网络(DNN)的文本分类模型,我们首先需要明确几个关键步骤:数据预处理、模型构建、模型训练、模型评估与调优,以及最终的模型部署(尽管在本文
    的头像 发表于 07-12 16:39 687次阅读

    增强现实是虚实结合吗为什么

    增强现实(Augmented Reality,简称AR)是一种将虚拟信息与现实世界相结合的技术,它通过计算机生成的图像、声音、触觉等感官信息,增强用户对现实世界的感知和理解。
    的头像 发表于 07-08 10:58 429次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类直是个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识
    的头像 发表于 07-01 16:25 611次阅读

    基于神经网络的呼吸音分类算法

    。噪声分类器是一种称为NRNN的堆叠RNN,它预测样本中每帧的噪声标签。NRNN优化训练期间每个输出计算的交叉熵损失 然后,预测噪声标
    发表于 05-31 12:05

    基于深度学习的鸟类声音识别系统

    模型被用于对鸟类声音数据进行高精度的分类。然而,现有的大多数鸟类声音识别模型的泛化能力较差,并且采用复杂的算法来提取鸟类声音特征。为了解决这些问题,本文构建了个包含264
    发表于 05-30 20:30

    基于毫米波的人体跟踪和识别算法

    了RadHAR,这是一种使用稀疏和非均匀点云执行精确HAR的框架。RadHAR利用滑动时间窗口来累积毫米波雷达的点云,并生成体素化表示,作为分类器的输入。 我们在收集的具有5不同活动
    发表于 05-14 18:40

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    高血压,因为这种情况的初期症状并不明显。高血压阶段的分类也很有用,这样个人就可以根据他所处的阶段进行以下生活方式的改变。 光电体积描记法(PPG)是一种检测血液循环变化的光学方法。它主要是表示血容量随时
    发表于 05-11 20:01

    检索增强生成(RAG)如何助力企业各种企业用例创建高质量的内容?

    在生成式 AI 时代,机器不仅要从数据学习,还要生成类似人类样的文本、图像、视频等。检索增强生成(RAG)则是可以实现的
    的头像 发表于 03-29 15:09 845次阅读

    一种高效的KV缓存压缩框架--GEAR

    GEAR框架通过结合互补的技术来解决这挑战:首先对大多数相似幅度的条目应用超低精度量化;然后使用低秩矩阵来近似量化误差。
    发表于 03-19 10:12 309次阅读
    <b class='flag-5'>一种</b>高效的KV缓存压缩<b class='flag-5'>框架</b>--GEAR

    求助,为什么在CAN数据库(.dbc文本文件)中找不到报文?

    我有CAN数据库(dbc文件)。这是文本文件。此文件的扩展名为 dbc。在Vector CANdb++编辑器中打开它时,将填充J1939报文和CAN ID。 但是,在.dbc文本文
    发表于 01-23 06:28

    人工智能中文本分类的基本原理和关键技术

    本文中,我们全面探讨了文本分类技术的发展历程、基本原理、关键技术、深度学习的应用,以及从RNN到Transformer的技术演进。文章详细介绍了各种模型的原理和实战应用,旨在提供对文本分类
    的头像 发表于 12-16 11:37 1173次阅读
    人工智能中<b class='flag-5'>文本分类</b>的基本原理和关键技术

    异构信号驱动下小样本跨域轴承故障诊断的GMAML算法

    论文提出了一种通用的模型不可知学习(GMAML)方法,用于在异质信号驱动的不同工况下,进行轴承的少样本故障诊断。
    的头像 发表于 12-06 15:07 1020次阅读
    异构信号驱动下<b class='flag-5'>小样本</b>跨域轴承故障诊断的GMAML算法