一种新颖的标签驱动去噪框架（LDF）-电子发烧友网

研究动机

方面类别检测（简称ACD）是细粒度情感分析的一个重要子任务，旨在从一组预定义的方面类别中检测出评论句子中提到的方面类别。例如，给定句子”虽然房间很贵，但是服务很好.”，ACD 的任务是从句子中识别出两个方面类别，即”服务”和”价格”。显然，ACD 属于多标签分类问题。

最近，随着深度学习的发展，研究者们提出了大量用于 ACD 任务的神经网络模型[1, 2, 3]。所有这些模型的性能在很大程度上依赖于足够的标记数据。但是，ACD 任务中方面类别的注释非常昂贵。有限的标记数据严重限制了神经网络模型的有效性。为了缓解这个问题，Hu等人[4]参考了小样本学习 (FSL) 的思路[5, 6,7 ,8]，将 ACD任务形式化为小样本学习问题 (FS-ACD)，即使用少量的监督数据来判评论句子所属的方面类别。

表1: 3-way 2-shot 元任务的示例

FS-ACD 遵循元学习范式[9]，构建了一个 N-way K-shot 的元任务集合。表1显示了一个 3-way 2-shot 的元任务，它由一个支持集和一个查询集组成。支持集随机采样三个类（即方面类别），每个类随机选择两个句子（即实例）。元任务旨在借助少量标记的支持集来推断查询集中句子所属的方面类别。

通过在训练阶段对不同的元任务进行采样，FS-ACD 可以在少样本场景中学习到很好的泛化能力，并且在测试阶段表现良好。为了执行 FS-ACD 任务，Hu等人[4]提出了一个基于注意力的原型网络Proto-AWATT。它首先利用注意力机制从支持集中的方面类别对应的句子中提取关键字，然后将它们聚合为证据为每个方面类别生成一个原型。

然后，查询集利用原型生成相应的查询表示。最后，通过测量每个原型表示与相应查询表示之间的距离来进行类别预测。

尽管取得了很好的效果，但是我们发现噪声仍然是 FS-ACD 任务的关键问题。原因来自两个方面：一方面，由于缺乏足够的监督数据，以前的模型很容易捕捉到与当前方面类别无关的噪声词，这在很大程度上影响了生成原型的质量。如图1所示，以方面类别 food_food_meat_burger的原型为例。

我们根据Proto-AWATT 的注意力权重突出显示其前 10 个单词。由于缺乏足够的监督数据，我们观察到模型倾向于关注那些常见但嘈杂的单词，例如“a”、“the”、“my”。这些嘈杂的词无法为每个方面生成具有代表性的原型，从而导致性能打折。另一方面，语义上接近的方面类别通常会产生相似的原型，这些语义接近的原型互为噪音，极大地混淆了分类器。

据统计，数据集中近 25% 的方面类别对具有相似的语义，例如表 1 中的 food_food_meat_burger 和 food_mealtype_lunch。显然，这些语义相近的方面类别生成的原型会相互干扰并严重混淆 FS-ACD的检测结果。

图1：根据 Proto-AWATT 的注意力权重可视化方面类别 food_food_meat_burger 原型的前 10 个单词

为了解决上述问题，我们为 FS-ACD 任务提出了一种新颖的标签驱动去噪框架(LDF)。具体来说，对于第一个问题，方面类别的标签文本包含丰富的语义描述方面的概念和范围，例如方面类别restaurant_location的标签文本“restaurant“和”location”，它们可以帮助注意力机制更好地捕捉与标签相关的单词。

因此，我们提出了一种标签引导的注意力策略来过滤噪声词并引导 LDF 产生更好的方面原型。鉴于第二个问题，我们提出了一种有效的标签加权对比损失，它将支持集的类间关系合并到对比学习函数中，从而扩大了相似原型之间的距离。

贡献

1、据我们所知，我们是第一个利用方面类别的标签信息来解决FS-ACD任务中噪声问题的工作；

2、我们提出了一种新颖的标签驱动去噪框架（LDF），它包含一个标签引导的注意力策略来过滤嘈杂的单词并为每个方面生成一个有代表性的原型，以及一个标签加权的对比损失来避免为语义接近的方面类别生成相似的原型；

3、LDF框架具有良好的兼容性，可以很容易地扩展到现有模型。在这项工作中，我们将其应用于两个最新的FS-ACD模型，Proto-HATT[8]和Proto-AWATT[4]。三个基准数据集的实验结果证明了我们框架的优越性。

背景

在这项工作中，我们基于 Proto-AWATT[4]和 Proto-HATT[8]模型抽象了一个通用的架构，它们都实现了令人满意的性能，因此被选为我们工作的基础。

给定一个包含l个单词的实例，我们首先通过查找嵌入表将其映射到单词序列中。然后，我们使用卷积神经网络(CNN)将单词序列编码为上下文表示。接下来，注意力层为实例中的每个单词分配一个权重。最终实例表示由下式给出：

之后，我们聚合类n的所有实例表示来生成原型表示：

在处理了支持集中的所有类之后，我们得到了N个原型表示。类似地，对于查询实例，我们首先利用注意力机制生成N个原型特定的查询表示。之后，我们计算每个原型与对应的原型特定查询表示之间的欧几里得距离(ED)。最后，我们对负欧几里得距离进行归一化以获得原型的排名，并使用阈值来选择方面类别：

最终的训练目标是均方误差(MSE)损失：

解决方案

图 2 展示了 LDF 的整体架构，其中包含两个组件：标签引导的注意力策略和标签加权的对比损失。在标签信息的帮助下，前者可以更好地关注与方面类别相关的单词，从而为每个方面生成更准确的原型，后者利用支持集的类间关系避免生成相似的原型。

图2：标签驱动去噪框架（LDF）的整体架构

3.1 标签引导的注意力策略

由于缺乏足够的监督数据，公式1中的注意力权重通常会关注一些与当前类别无关的噪声词，导致原型变得不具有代表性。直觉上来说，每个类的标签文本都包含丰富的语义，可以为捕获方面类别相关的单词提供指导。因此，我们利用标签信息来解决上述问题并提出标签引导的注意力策略。

具体来说，我们首先计算标签文本与实例中每个单词的语义相似度来定位每个类的关键词：

在标签信息的约束下，相似度权重倾向于关注与标签文本高度相关的少量单词，这样可能会忽略其它有信息量的词。因此，我们将其作为注意力权重的补充，以生成更全面、更准确的注意力权重：

然后，为了重新获得注意力分布，注意力权重被重新归一化为：

最后，我们将方程1中的注意力权重替换为方程8中新的注意力权重，从而获得支持集中每个类的代表性原型。

3.2 标签加权的对比损失

如前所述，语义上接近的方面类别通常会在支持集中生成相似的原型，它们互为噪声并严重混淆分类器。

直观地说，一种可行且自然的方法是利用有监督对比学习，它可以将不同类别的原型推开如下：

然而，有监督对比学习并不能很好地解决我们的问题，因为它在负集中平等地对待不同的原型，而我们的目标是鼓励越相似的原型相距越远。

例如，“food_food_meat_burger”在语义上比“room_bed”更接近“food_mealtype_lunch”。因此，“food_food_meat_burger”在负集中应该比“room_bed”更远离“food_mealtype_lunch”。

为了实现这一目标，我们再次利用标签信息并提出将类间关系合并到有监督的对比学习中，以自适应地区分负集中的相似原型：

其中 wmn表示负集中不同方面类别之间的 cos 相似度，计算如下：

在标签加权的对比损失模块中，最终的损失函数为：

实验

5.1 实验设置

我们在三个公开的数据集FewAsp(single)、FewAsp(multi)和FewAsp上进行了实验，它们共享相同的100个方面类别，其中64个方面用于训练，16个方面用于验证，20个方面用于测试。我们使用 Macro-F1 和 AUC 分数作为评估指标，并且 5-way 设置和 10-way 设置中的阈值分别设置为0.3和0.2。

为了验证LDF框架的优越性，我们选择了两个性能最好的主流模型作为我们工作的基础，即Proto-HATT[8]和Proto-AWATT[4]。换句话说，我们将LDF集成到Proto-HATT和Proto-AWATT中，得到最终模型LDF-HATT和LDF-AWATT。

5.2 主实验

从表2可以看出，LDF-HATT和LDF-AWATT在三个数据集上的性能始终优于其基础模型。值得一提的是LDF-HATT在Macro-F1和AUC分数上最多获得了5.62%和1.32%的提升。相比之下，LDF-AWATT最多比Proto-AWATT高3.17%和1.30%。这些结果表明我们的框架具有良好的兼容性。

事实上，LDF-AWATT的Macro-F1在大多数情况下提高了大约2%，而LDF-HATT的Macro-F1平均提高了大约3%。这与我们的预期一致，因为原始Proto-AWATT具有更强大的性能。LDF-HATT和LDF-AWATT在FewAsp(multi)数据集上比在FewAsp(single)数据集上表现更好。

一个可能的原因是FewAsp(multi)数据集中的每个类包含更多的实例，这使得LDF-HATT和LDF-AWATT在多标签分类中可以生成更准确的原型。

表2：主实验结果

5.3 消融实验

在不失一般性的情况下，我们选择 LDF-AWATT模型进行消融实验，以研究LDF中单个模块对模型整体效果的影响。标签引导的注意力策略简称LAS，标签加权的对比损失简称LCL，有监督的对比学习简称SCL。根据表3报告的结果，我们可以观察到以下几点：

表3:消融实验结果

1、与基础模型Proto-AWATT相比， Proto-AWATT+LAS在三个数据集上取得了具有竞争力的性能，这验证了利用标签信息为每个类生成具有代表性原型的合理性；

2、将 LCL 集成到 Proto-AWATT+LAS后，LDF-AWATT 实现了 state-of-the-art 的性能，这表明 LCL 有利于区分相似的原型；

3、LAS 比 LCL 更有效。一个可能的原因是注意力机制是生成原型的核心因素。因此，它对我们的框架贡献更大；

4、Proto-AWATT+SCL 在FewAsp 数据集上的性能略好于Proto-AWATT，但它们的结果远低于 Proto-AWATT+LCL，这些结果进一步凸显了LCL的有效性；

5、将类间关系集成到Proto-AWATT+SCL后，Proto-AWATT+LCL取得了更好的性能，这表明类间关系在区分相似原型方面起着至关重要的作用；

案例分析

为了更好地理解我们框架的优势，我们从FewAsp 数据集中选择一些样本进行案例研究。具体来说，我们随机抽取 5 个类，然后为这5个类抽取 50 次 5-way 5-shot 元任务。最后对于每个类，我们得到 50 个原型向量。

图4：可视化Proto-AWATT、Proto-AWATT+LAS 和 LDF-AWATT 原型表示

6.1 Proto-AWATT vs. Proto-AWATT+LAS

如图4(a) 和图4(b) 所示，我们可以看到Proto-AWATT+LAS 学习到的每个类的原型表示显然比Proto-AWATT 更集中。这些观察表明Proto-AWATT+LAS确实可以为每个类生成更准确的原型。

6.2 Proto-AWATT+LAS vs. LDF-AWATT

如图4(b)和图4(c)所示，将LCL集成到Proto-AWATT+LAS后，LDF-AWATT学习到的food_mealtype_lunch和food_food_meat_burger的原型表示比Proto-AWATT+LAS更分离。这表明LCL确实可以区分相似的原型。

错误分析

为了分析我们框架的局限性，我们通过LDF-AWATT 从FewAsp 数据集中随机抽取 100 个错误案例，并将它们大致分为两类。表4显示了每个类别的比例和一些代表性示例。主要类别是”Complex”，主要包括需要深入理解的示例。

如示例（1）所示，与 restaurant_location 相关的单词片段“Chandler Downtown Serrano”在训练集中出现的次数不超过 5 次，这些表达的低频率使得我们的模型难以捕捉到它们的模式，因此给出正确的预测确实具有挑战性。

第二类是”No obvious clues”，主要包括信息不足的例子。如示例（2）所示，句子很短，无法提供足够的信息来预测真实标签。

表4：LDF-AWATT模型的错误样例

总结

在本文中，我们提出了一种新颖的标签驱动去噪框架（LDF）来缓解 FS-ACD 任务的噪声问题。具体来说，我们设计了两个合理的方法：标签引导的注意力策略和标签加权的对比损失，旨在为每个类生成更好的原型并区分相似的原型。大量实验的结果表明，我们的框架 LDF 与其他最先进的方法相比实现了更好的性能。

论文链接：

https://arxiv.org/pdf/2210.04220.pdf

代码链接：

https://github.com/1429904852/LDF

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

ACD

ACD

+关注

关注
0

文章
13

浏览量
11365
分类器

分类器

+关注

关注
0

文章
152

浏览量
13249
卷积神经网络

卷积神经网络

+关注

关注
4

文章
368

浏览量
11935

原文标题：EMNLP'22 Findings | 用于多标签少样本方面类别检测的标签驱动去噪框架

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

为电机一体化应用提供一种大电流单通道集成电机驱动芯片

电机驱动芯片 - SS6952T为电机一体化应用提供一种大电流单通道集成电机驱动方案。SS6952T有一路H桥

发表于 12-18 09:34 •231次阅读

为电机<b class='flag-5'>一</b>体化应用提供<b class='flag-5'>一种</b>大电流单通道集成电机<b class='flag-5'>驱动</b>芯片

YD7123高速低噪D类音频放大驱动电路中文手册

电子发烧友网站提供《YD7123高速低噪D类音频放大驱动电路中文手册.pdf》资料免费下载

发表于 12-03 11:36 •1次下载

一文看懂RFID电子标签的特点及应用

，是与读写器一起构成 RFID 系统的硬件主体。 RFID 系统基本组成包括RFID电子标签、读写器、射频天线、应用软件，是一种利用射频识别技术进行数据采集与传输的自动识别系统。在智能制造大趋势下，RFID作为

发表于 12-02 10:09 •1494次阅读

<b class='flag-5'>一</b>文看懂RFID电子<b class='flag-5'>标签</b>的特点及应用

一种面向飞行试验的数据融合框架

天地气动数据一致性，针对某外形飞行试验数据开展了典型对象的天地气动数据融合方法研究。结合数据挖掘的随机森林方法，本文提出了一种面向飞行试验的数据融合框架，通过引入地面风洞试验气动数据，实现了对复杂输入参数的特征

发表于 11-27 11:34 •355次阅读

<b class='flag-5'>一种</b>面向飞行试验的数据融合<b class='flag-5'>框架</b>

tlv320aic3106底噪过大要如何解决？

输入（断开电路），依然有比较大的底噪，初步确定为3106本身存在底噪，录音文件见附件，请问要怎么去消除或者降低这个底噪？

发表于 10-12 08:23

为电机一体化应用提供一种双通道集成电机驱动方案的电机驱动芯片-SS6811H

电机驱动芯片 - SS6811H为舞台灯光和其它电机一体化应用提供一种双通道集成电机驱动方案。SS6811H是一款双通道H桥

发表于 09-26 09:33 •434次阅读

为电机<b class='flag-5'>一</b>体化应用提供<b class='flag-5'>一种</b>双通道集成电机<b class='flag-5'>驱动</b>方案的电机<b class='flag-5'>驱动</b>芯片-SS6811H

运放的反馈电阻习惯性并联上一个反馈电容，主要目的就是去噪，为什么会起到这种作用？

菜鸟请教：运放的反馈电阻习惯性并联上一个反馈电容，主要目的就是去噪，为什么会起到这种作用？特别是如何计算其电容值得大小？有什么书可以推荐的。谢谢。

发表于 08-29 07:53

芯科科技完整的蓝牙解决方案助推电子货架标签应用

首先看看什么是ESL或称电子货架标签？数字显示，智能显示，无线价格标签。即便术语不同，但它们都是指电子货架标签或ESL。它是一种小型电池驱动

发表于 08-20 15:02 •691次阅读

rup是一种什么模型

RUP（Rational Unified Process，统一建模语言）是一种软件开发过程模型，它是一种迭代和增量的软件开发方法。RUP是由Rational Software公司（现为IBM的

发表于 07-09 10:13 •1424次阅读

频谱仪测载噪比怎么测

频谱仪测量载噪比（Carrier to Noise Ratio, CNR）是一种评估无线通信系统性能的重要指标。载噪比是指信号功率与噪声功率的比值，通常用分贝（dB）表示。在无线通信系统中，较高

发表于 06-03 10:13 •1492次阅读

IU8200差分输入，超低底噪300mW单声道高性能音频驱动芯片

IU8200差分输入，超低底噪300mW单声道高性能音频驱动芯片

发表于 04-10 19:58 •742次阅读

一种高效的KV缓存压缩框架--GEAR

GEAR框架通过结合三种互补的技术来解决这一挑战：首先对大多数相似幅度的条目应用超低精度量化；然后使用低秩矩阵来近似量化误差。

发表于 03-19 10:12 •390次阅读

融智兴科普｜浅析RFID洗涤标签管理应用

RFID洗涤标签是一种应用RFID技术的标签，主要用于洗涤行业中的布草管理。

发表于 03-14 17:57 •773次阅读

介绍一种OpenAtom OpenHarmony轻量系统适配方案

本文在不改变原有系统基础框架的基础上，介绍了一种OpenAtom OpenHarmony（以下简称“OpenHarmony”）轻量系统适配方案。

发表于 03-05 09:24 •1316次阅读

一种高效1.5V/4.2V的LED驱动器电路

本文介绍了一种高效的 1.5 V 至 4.2 V LED驱动器电路，可与标准锂离子电池一起使用，以增强照明、延长备用电池和延长电池寿命。

发表于 02-25 14:19 •1432次阅读

搜索历史

一种新颖的标签驱动去噪框架（LDF）

评论