0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种简单而有效的转换方法来降低预测情感标签的难度

深度学习自然语言处理 来源:南大NLP 作者:赵飞 2022-09-20 12:04 次阅读

01

研究动机

面向目标的多模态情感分类(TMSC)是方面级情感分析的一个新的子任务,旨在预测一对句子和图片中提到的意见目标的情感极性。该任务背后的假设是图片信息可以帮助文本内容识别意见目标的情感。图1给出了两个代表性的示例。我们可以看到仅仅根据非正式的简短句子很难检测出意见目标的情感,但与意见目标相关的视觉内容(即笑脸)可以清晰地反映其情感极性。

4daad74a-3896-11ed-ba43-dac502259ad0.png

图1:面向目标的多模态情感分类 (TMSC) 的两个示例。意见目标及其相应的情感极性在句子中突出显示。红色边框表示意见目标关注到的视觉线索。

从上面的示例中我们可以看出,对齐两种模态的意见目标并捕获有用的视觉情感特征在TMSC任务中起着至关重要的作用。鉴于其重要性,主流的工作采用了注意力机制来自动学习文本和图片的对齐关系,然后将捕获的意见目标的视觉表示聚合为证据来进行情感预测。

尽管取得了一些改进,但上述方法仍然存在两个关键问题:

(1)由于文本和图片中意见目标的粒度存在很大的差距,之前的这些方法很难对齐两种模态。具体来说,图片中出现的意见目标通常是指粗粒度的对象(例如,图片中的man),而句子中的意见目标通常是细粒度的实体(例如,人名 “Vince Gilligan)。意见目标粒度的不一致导致视觉注意力有时无法捕捉到相应的视觉表征。

(2)即使捕获到了,表达相同情绪的多样化视觉表示也给情感预测带来了很大的挑战。以图1(c)和图1(d)为例,意见目标“Vince Gilligan”和“Sammy”分别关注了图片中的粗粒度对象man和girl,从他们的面部表情我们可以看出他们都在微笑,但微笑的角度和幅度却大不相同。视觉表示的多样性不可避免地导致其稀疏性,这使得学习视觉表示和情感标签之间的映射函数变得困难。

在这项工作中,我们提供了解决上述问题的新思路,即利用从图片中提取的形容词-名词对 (ANPs) .(例如图2(a)中的“nice clouds”, “bad car”, “happy man”, “clear sky”和“dry grass”)。对于第一个问题,我们观察到ANPs中的名词也是粗粒度的概念,因此一个很直观的想法是将细粒度的意见目标(例如“Vince Gilligan”)映射到粗粒度名词中(例如“man”)。

通过这种方式更容易弥合两种模态的粒度差距并对齐文本和图片。对于第二个问题,我们观察到 ANPs 通常可以从表达相同情绪的不同视觉内容中提取到相同的形容词,因此一个很直观的想法是将多样化的视觉表征(例如笑脸)映射到同一个形容词(例如“happy”)。显然,学习这些相同形容词和情感标签之间的映射函数更容易。

4eb97678-3896-11ed-ba43-dac502259ad0.png

图2:从每个图片中提取前 5 个形容词-名词对 (ANPs)

为了使用 ANPs促进 TMSC 任务,我们提出了一个知识增强框架(简称KEF), 它主要包含两个组件:视觉注意力增强器和情感预测增强器。前者首先使用我们设计的映射方法从 ANPs 中找到与意见目标最相关的名词,然后用它来提高视觉注意力的有效性。后者的目的是建立形容词和目标相关视觉表示之间的联系,然后将其用作视觉表示的补充信息,以降低预测情感标签的难度。

02

贡献

1.据我们所知,我们是第一个提出利用从图片中提取的形容词-名词对(ANPs)来帮助TMSC 任务对齐文本和图片的工作;

2.我们提出了一种新颖的知识增强框架(KEF),它包含一个视觉注意力增强器来提高视觉注意力的有效性,以及一个情感预测增强器来降低情感预测的难度。

3.KEF 具有良好的兼容性,很容易组合或者扩展到现有的基于注意力的多模态模型。在这项工作中,我们将其应用于两个最新的 TMSC 模型:SaliencyBERT[6]和 TomBERT[2]。两个公开数据集的实验结果证明了我们框架的有效性。

03

解决方案

图 3 展示了 KEF 的整体架构,主要包含两个组件:视觉注意力增强器和情感预测增强器。具体来说,我们首先基于TomBERT[2]和 SaliencyBERT模型抽象出一个通用的注意力架构。然后,在 ANPs 的帮助下,我们依次提出了视觉注意力增强器和情感预测增强器。前者旨在通过映射方法和重构损失来提高视觉注意力的有效性,后者引入了一种简单而有效的转换方法来降低预测情感标签的难度。

4ef4a54a-3896-11ed-ba43-dac502259ad0.png

图3:知识增强框架(KEF)的整体架构

3.1 视觉注意力增强器

问题

如前所述,图片中出现的意见目标是一个粗粒度的概念,而句子中提到的意见目标是一个细粒度的概念,意见目标粒度的不一致导致了视觉注意力有时无法捕获到相应的视觉表示。

基本的直觉

显然,从图片中提取出来的名词也是粗粒度的概念,所以一个直观的想法是将细粒度的意见目标映射到粗粒度的名词上,然后将它作为桥梁来捕获粗粒度的视觉特征.。但是,从图片中提取的大部分名词都是与意见目标无关的,因此我们不能直接使用它们。

映射方法(Mapping Method.)

为了应对上述挑战,我们首先通过计算嵌入空间中名词表示和目标表示之间的语义相似度来衡量目标-名词相关性的强度:

4f330056-3896-11ed-ba43-dac502259ad0.png

根据最大相似度得分,我们可以找到与意见目标最相关的名词:

4f4de11e-3896-11ed-ba43-dac502259ad0.png

接下来,我们将它们聚合在一起作为意见目标的补充信息以捕获相应的视觉表示:

4f6f6f8c-3896-11ed-ba43-dac502259ad0.png

重构损失(Reconstruction Loss.)

为了确保视觉注意力能够更准确地捕获到与意见目标相关的视觉特征,我们还设计了一种重构损失来最小化目标相关名词表示和目标相关视觉表示之间的差异:

4f954dc4-3896-11ed-ba43-dac502259ad0.png

3.2 情感预测增强器

问题

即使视觉特征被捕获到了,但是表达相同情绪的视觉表征之间仍然存在显着差异,这给学习视觉表征和情感标签之间的映射函数带来了挑战。

基本的直觉

考虑到 ANPs 通常可以从表达相同情绪的不同视觉表征中提取相同的形容词,因此一个直观的想法是将多样化的视觉表征映射到同一个形容词。然而,与视觉表示最相关的形容词是未知的,我们需要明确地找到它。

转换方法(Transformation Method.)

实际上,在映射方法中,我们发现名词表示与目标感知视觉表示最相关。由于形容词是名词的修饰语,因此与该名词对应的形容词也与目标感知视觉表示最相关。最后,我们将其用作视觉表示的补充信息,以降低情感预测的难度:4ff737aa-3896-11ed-ba43-dac502259ad0.png

04

实验

我们在两个公开的数据集Twitter2015和Twitter2017上进行了实验,并且使用准确率(Accuracy)和Macro-F1分数作为评估指标。KEF包含两个即插即用的组件,可以轻松组合或扩展到现有的基于注意力的方法。为了更好地验证KEF的有效性,我们选择了两个最近的基于BERT的多模态模型作为我们工作的基础,即TomBERT和Saliencybert。

换句话说,我们将KEF集成到TomBERT和Saliencybert中,得到最终模型KEF-TomBERT和KEF-Saliencybert。从表1可以看出,KEF-Saliencybert和KEF-TomBERT在TWITTER-15和TWITTER-17数据集上均取得了具有竞争力的结果。

具体来说,与TomBERT相比,KEF-TomBERT在Macro-F1和Accuracy分别获得了大约2.0%和1.5%的改进。相比之下,KEF-Saliencybert的表现平均优于Saliencybert1.5%和1.7%。这些结果表明我们的框架具有良好的兼容性。此外,在大多数情况下,KEF-TomBERT的表现优于KEFSaliencybert,这表明我们的框架对TomBERT更有效。

表1:主实验结果

5015b54a-3896-11ed-ba43-dac502259ad0.png

在不失一般性的情况下,我们选择 KEF-TomBERT 模型进行消融实验,以研究 KEF 中单个模块对模型整体效果的影响。视觉注意力增强器简称VAE,­情感预测增强器简称SPE。根据表2报告的结果,我们可以观察到以下几点:

表2:消融实验结果

504b2d6a-3896-11ed-ba43-dac502259ad0.png

1. 与基础模型 TomBERT 相比,TomBERT+VAE 和TomBERT+SPE在两个数据集上均取得了具有竞争力的表现,这验证了利用形容词-名词对提高视觉注意力能力和情感预测能力的合理性;

2. 将SPE集成到TomBERT+VAE后,KEF-TomBERT实现了state-of-the-art的性能,这证明了SPE可以通过形容词-名词对提高情感预测能力;

3. VAE 比 SPE 更有效,这是合理的因为注意力机制的有效性是情感预测的核心因素。因此,它对我们的框架贡献更大;

4. 如图 4 所示,我们可以看到 KEF-TomBERT 学习到的多模态表示明显比 TomBERT+VAE 学习的更可分离,这表明SPE确实可以降低情感预测的难度。

50add73a-3896-11ed-ba43-dac502259ad0.png


图4:TomBERT+VAE 和 KEF-TomBERT 的多模态表示的可视化

为了验证 ANPs 对 KEF-TomBERT 模型的影响,我们从每张图片中提取前 1、3、5 和 7 个 ANPs进行了实验,结果如图 5 所示。显然,随着 ANPs 数量的增加,KEF-TomBERT 的性能变得更好。而且当 ANPs 的数量等于 5 时,KEF-TomBERT 的效果最好。

但是,一旦 ANP 的数量大于 5,性能就不会继续增加,甚至开始下降。这背后的原因可能是:每个句子最多包含5个意见目标,所以当ANPs的数量大于意见目标的最大数量时会带来一些噪音。

50e1304e-3896-11ed-ba43-dac502259ad0.png

图5:不同数量 ANPs 对KEF-TomBERT的影响

05

案例分析

为了更好地理解视觉注意力增强器 (VAE) 和情感预测增强器 (SPE) 的优势,我们从 Twitter 数据集中随机选择一些样本进行案例研究。

视觉注意力增强器的影响

如图 6(a) 所示,基础模型 TomBERT 错误地预测了意见目标“Korkie”的情感。这是合理的因为我们发现 TomBERT关注了与意见目标无关的视觉线索(由黄色边界框突出显示)。在将 VAE 集成到 TomBERT 之后,TomBERT+VAE将细粒度的意见目标“Korkie”映射到 ANPs 中的粗粒度名词“man”。在名词“man”的帮助下,TomBERT+VAE 成功地捕捉到了目标相关的视觉线索(由红色边界框突出显示),从而给出了正确的预测。

情感预测增强器的影响

如图 6(b) 和6(c) 所示,虽然 TomBERT+VAE 准确地捕捉到了意见目标的相应视觉表征(即笑脸),但微笑表情的多样化增加了情感预测的难度,因此 TomBERT +VAE 错误地预测了图 6(c) 中“Sammy”的情感。在将 SPE 集成到 TomBERT+VAE 之后,KEFTomBERT 将不同的笑脸映射到同一个形容词“happy”。显然,KEF-TomBERT 更容易学习这些“happy”和情感标签“positive”之间的映射函数,从而做出正确的预测。

511c0b7e-3896-11ed-ba43-dac502259ad0.png

图6:案例分析

06

总结

在本文中,我们为 TMSC 任务提出了一种新颖的知识增强框架 (KEF)。具体来说,在 ANPs 的帮助下,我们设计了两个新颖的知识增强器,视觉注意力增强器和情感预测增强器,以提高 TMSC 任务的视觉注意力能力和情感预测能力。大量实验的结果表明,我们的框架与其它最先进的方法相比具有更好的性能。进一步的分析也验证了我们框架的优越性。

在未来,我们希望将我们的想法应用于其他多模态任务,因为从图片中提取的形容词-名词对很容易扩展到其他多模态任务,例如多模态实体链接、多模态机器理解和多模态对话生成。



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 增强器
    +关注

    关注

    1

    文章

    46

    浏览量

    8258
  • ANP
    ANP
    +关注

    关注

    0

    文章

    4

    浏览量

    6342

原文标题:COLING2022 | 南大提出:面向目标的多模态情感分类的知识增强框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种使用LDO简单电源电路解决方案

    本期我们介绍一种使用LDO简单电源电路解决方案,该方案可以处理12V/24V、多节锂离子电池和4节干电池等相对较高的输入电压。
    的头像 发表于 12-04 16:05 334次阅读
    <b class='flag-5'>一种</b>使用LDO<b class='flag-5'>简单</b>电源电路解决方案

    基于LSTM神经网络的情感分析方法

    能力而受到广泛关注。 1. 引言 情感分析在商业智能、客户服务、社交媒体监控等领域具有广泛的应用。传统的情感分析方法依赖于手工特征提取和机器学习算法,但这些方法往往难以处理文本中的长距
    的头像 发表于 11-13 10:15 514次阅读

    一种创新的动态轨迹预测方法

    本文提出了一种动态轨迹预测方法,通过结合历史帧和历史预测结果提高预测的稳定性和准确性。它引入了
    的头像 发表于 10-28 14:34 410次阅读
    <b class='flag-5'>一种</b>创新的动态轨迹<b class='flag-5'>预测</b><b class='flag-5'>方法</b>

    一种简单高效配置FPGA的方法

    本文描述了一种简单高效配置FPGA的方法,该方法利用微处理器从串行外围接口(SPI)闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成
    的头像 发表于 10-24 14:57 585次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>简单</b>高效配置FPGA的<b class='flag-5'>方法</b>

    文看懂如何降低贴片微型共模电感的噪音

    在电子设备中,贴片微型共模电感是应用非常广泛的一种电子元器件,作为家拥有20年电感研发和制造经验的车规级电感制造商,我们积累了丰富的经验解决电感噪声问题。今天将讨论几种有效
    的头像 发表于 10-08 10:41 244次阅读

    简单认识双积分型A/D转换

    双积分型A/D转换器是一种重要的模拟到数字转换器(Analog-to-Digital Converter,简称A/D转换器),它采用独特的双积分方法
    的头像 发表于 09-06 16:22 1160次阅读

    rup是一种什么模型

    部分)开发的,它基于统建模语言(UML)和面向对象的软件开发方法。RUP提供了一种结构化的方法来开发软件,它包括系列的阶段、迭代和里程碑
    的头像 发表于 07-09 10:13 1259次阅读

    AD8338有没有可行的方法来测量大增益?

    AD8338是款VGA芯片,可变增益范围为-10dB至70dB。然而,理论上的70dB增益过大,导致来自源的输入信号非常小,容易受到干扰,导致70dB增益未得到验证。有没有可行的方法来测量大增益?
    发表于 05-21 07:06

    如果是使用六步方波的方法来控制电机,要如何实现过电流保护?

    请问下如果是使用六步方波的方法来控制电机,要如何实现过电流保护? 以免电流过大造成板子损坏
    发表于 04-22 08:10

    如何降低DC-DC转换器的纹波噪声

    DC-DC转换器是一种将直流电压转换为另一种直流电压的电源转换器,常见于各种电子设备中。在DC-DC转换
    的头像 发表于 03-13 12:44 1936次阅读

    一种有效降低损耗的压电式DC-DC转换器开发案例

    据麦姆斯咨询报道,美国加州大学圣迭戈分校(University of California San Diego)和法国原子能委员会电子信息技术研究所(CEA-Leti)的科学家们开发出了一种突破性的压电式DC-DC转换
    的头像 发表于 03-07 09:48 820次阅读

    简单而有效的晶体管/二极管测试电路

    晶体管和二极管是电子产品的基本组件,在许多电路设计中发挥着重要作用。在将这些有源元件集成到电路中时,确保它们正常工作至关重要。因此,必须有一种可靠的方法来测试晶体管和二极管。
    的头像 发表于 02-25 15:21 732次阅读
    <b class='flag-5'>一</b>个<b class='flag-5'>简单</b><b class='flag-5'>而有效</b>的晶体管/二极管测试电路

    采用电容器降低噪声的方法

    )、电容(C)和电阻(R)组成的滤波网络降低噪声水平。通过合理设计这些无源元件的参数,可以有效地抑制转换器产生的高频噪声,从而改善整个系统的电磁兼容性能和稳定性。 去耦和旁路 电容器
    的头像 发表于 02-05 10:12 914次阅读

    常见的降低接地电阻的方法有哪些呢?

    常见的降低接地电阻的方法有哪些呢? 降低接地电阻是保证电气设备正常运行和提高设备安全性的重要措施之。在实际工程应用中,可以采取多种方法来
    的头像 发表于 01-23 15:28 2980次阅读

    一种简单易行的可编程振荡器构建方法

    本文介绍一种简单易行的可编程振荡器构建方法,其中振荡频率和幅度可以通过使用digiPOT彼此独立地调节。
    发表于 01-15 10:05 241次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>简单</b>易行的可编程振荡器构建<b class='flag-5'>方法</b>