0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP:面向方面级情感分类的注意力转移网络

深度学习自然语言处理 来源:深度学习自然语言处理 作者:赵飞 2021-02-10 16:59 次阅读

01

研究动机

方面级情感分类(英文叫Aspect-level Sentiment Classification,简称ASC)旨在检测句子中给定意见目标的情感极性。意见目标(也称为方面术语)是指评论中描述实体方面的单词或短语。如图1所示,"服务很好,但食物却很糟糕"这句话包含两个意见目标,即"食物"和"服务"。用户对目标"服务"的看法是正面的,而对目标"食物"的看法却是负面的。

94d22b88-603d-11eb-8b86-12bb97331649.png

图1: 包含多个意见目标的句子示例

从上面的例子中我们可以看到,一个句子有时会包含多个意见目标,并且它们可能表达不同的情感极性,因此ASC的一个主要挑战是如何为不同的意见目标获取到不同的情感上下文。为此,大多数方法运用注意力机制(Bahdanau et al., 2014)来捕获与给定目标相关的情感词,然后将其汇总以进行情感预测。尽管注意力机制是有效的,但我们认为由于ASC标注数据是有限的,因此它未能充分发挥注意力机制的潜力。众所周知,深度学习的结果很大程度上取决于训练数据的多少。但是,在实际情况中,ASC数据的注释费时且昂贵,因为注释者不仅需要识别句子中所有的意见目标,而且还需要判断其相应的情感极性。注释困难导致现有公开的数据集都相对较小,这严重限制了注意力机制的潜力。

尽管缺少ASC数据,但是在线评论网站(例如Amazon和Yelp)可以提供大量的文档级情感分类(DSC)标记数据。这些评论中包含了大量的情感知识和语义模式。因此,一个有意义但具有挑战性的研究问题是如何利用资源丰富的DSC数据来提升低资源任务ASC。为此,He et al. (2018) 设计了PRET + MULT框架,通过共享浅层的embedding嵌入和LSTM层将情感知识从DSC数据传递到ASC任务。受胶囊网络的启发(Sabour et al., 2017),Chen and Qian (2019)提出TransCap模型,它共享底部的三个胶囊层,然后仅在最后一个ClassCap层中分离了两个任务。从根本上说,PRET + MULT和Transcap通过共享参数和多任务学习来提升ASC,但是它们不能准确地控制和解释要传输的知识。

为了解决上述提到的两个问题,在这项工作中,我们提出了一种新颖的框架,即注意力转移网络(ATN),它从DSC任务中显式的转移注意力知识,以提高ASC任务中意见目标的注意力能力。与PRET + MULT和Transcap相比,我们的模型获得了更好的结果并保留了良好的可解释性。

02

解决方案

图1显示了注意转移网络(ATN)的总体组织结构。在ATN框架中,我们分别采用了两个基于注意力的BiLSTM网络作为DSC和ASC的基础模块,并提出了两种将DSC中的注意力知识迁移到ASC的新方法。

953fa7bc-603d-11eb-8b86-12bb97331649.png

图2: 注意力迁移网络(ATN)的整体架构

第一种迁移方法称为注意力引导。具体来说,我们首先在大规模的DSC数据集上预训练一个基于注意力的BiLSTM网络,然后利用DSC模块中的注意力权重作为学习信号来引导ASC模块更准确地捕捉情感线索,从而取得很好的结果。注意力引导通过辅助监督信号学习DSC模块的注意力能力,但是,它不能在测试阶段利用DSC模块的注意力权重,并且浪费了预先训练的知识。为了充分利用额外的注意能力,我们进一步提出了注意力融合方法来直接将它们合并。

这两种方法虽然工作方式不同,但是都有各自的优点。注意力引导的目的是学习DSC模块的注意力能力,由于在测试阶段不使用DSC的外部注意力,因此具有更快的推理速度,而注意力融合可以利用DSC模块在测试阶段的注意力知识,做出更全面的预测。

03

实验

我们在SemEval 2014 Task 44 (Pontiki et al., 2014)的两个ASC基准数据集上评估了模型的性能。 它们分别包含来自laptop和restaurant领域的商品评论。我们在所有数据集中删除了极性冲突的样本。ASC数据集的统计数据如表1所示:

表1:ASC数据集的统计信息

95e0cab6-603d-11eb-8b86-12bb97331649.png

为了对DSC模块进行预训练,我们使用了两个DSC数据集,分别是YelpReview和AmazonReview(Li et al., 2018a)。DSC数据集Yelp Review包含的注意力知识迁移到ASC数据集Restaurant。而laptop的注意力知识来自AmazonReview。表2显示了它们的统计信息。在这项工作中,我们采用Accuracy和Macro-F1作为评估ASC任务中不同方法的性能指标。

表2:DSC数据集的统计信息

995f13c8-603d-11eb-8b86-12bb97331649.png

主要结果如表3所示。我们将结果分为三类:第一类列出了ASC任务的经典方法,第二类给出了两种基于迁移的现有方法,最后一类是我们的基础ASC模型和两个增强版本。我们分别使用ATN-AG和ATN-AF来表示使用了注意力引导和注意力融合的ATN。

表3:主实验结果(%)

9caeff02-603d-11eb-8b86-12bb97331649.png

我们的基础ASC模型-基于注意力的BiLSTM通过位置嵌入得到了增强,其性能优于某些基于注意力的模型(如ATAE-LSTM和IAN)。这个结果表明位置嵌入对于在ASC任务中建模目标信息是有益的。在此基础上,我们的注意力转移模型ATN-AG和ATN-AF在restaurant数据集上的Accuracy分别提高了约1%和2%,在laptop数据集上提高了2.8%。此外,它们超过了两种使用了转移知识的现有方法,即PRET + MULT和Transcap。

这些结果证明了我们提出的将注意力知识从资源丰富的DSC数据转移到ASC任务的有效性。与ATN-AG相比,ATN-AF在restaurant数据集上具有更好的性能。这是合理的,因为在测试阶段,ATN-AG无法利用DSC模块的注意力权重。尽管如此,ATN-AG仍在laptop数据集上获得了有竞争力的结果,并且推理速度比ATN-AF快。

为了研究DSC数据集大小对我们方法的影响,我们将DSC数据的百分比从0%更改为100%,以报告ATN-AG和ATN-AF的结果。临界值0%和100%分别表示无DSC数据和使用完整的DSC数据集。结果如图2所示:

a08d5c18-603d-11eb-8b86-12bb97331649.png

图3: 在不同百分比的DSC数据下ATN-AG和ATN-AF的性能

为了分析超参数λ对ATN-AG的影响,我们在[0,1]中对其进行调整以进行实验,步长为0.1。 图3显示了restaurant和laptop数据集上具有不同λ的ATN-AG的性能:

a511fe10-603d-11eb-8b86-12bb97331649.png

图4: 超参数λ对ATN-AG的影响

在ATN模型中,我们提出了注意力指导和注意力融合的方法,以帮助ASC模块更准确地捕获情感线索。为了验证这一点,我们分析了数十个测试集中的示例。与基础ASC模型相比,我们发现注意力转移方法可以处理低频情感词和诸如否定之类的复杂情感模式。表4显示了两个示例的注意力可视化结果以及在模型ATN-AG和ATN-AF下的相应情感预测。

a5b0606e-603d-11eb-8b86-12bb97331649.png

图5: ATN-AG和ATN-AF的注意力可视化结果,较深的颜色表示较高的注意力权重

04

总结

标注数据不足会限制基于注意力的模型对ASC任务的有效性。 本文提出了一种新颖的注意力转移框架,其中设计了两种不同的注意力转移方法,以利用资源丰富的文档级情感分类语料库中的注意力知识来增强资源贫乏的方面级情感分类的注意力过程,最终达到改善ASC性能的目标。 实验结果表明,我们的方法优于最新技术。 进一步的分析验证了从DSC数据转移注意力知识到ASC任务的有效性和好处。

责任编辑:xj

原文标题:【COLING2020】面向方面级情感分类的注意力转移网络

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 情感识别
    +关注

    关注

    1

    文章

    10

    浏览量

    7550
  • 自然语言
    +关注

    关注

    1

    文章

    287

    浏览量

    13337
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22016

原文标题:【COLING2020】面向方面级情感分类的注意力转移网络

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于LSTM神经网络情感分析方法

    情感分析是自然语言处理(NLP)领域的一项重要任务,旨在识别和提取文本中的主观信息,如情感倾向、情感强度等。随着深度学习技术的发展,基于LSTM(长短期记忆)神经
    的头像 发表于 11-13 10:15 373次阅读

    一种基于因果路径的层次图卷积注意力网络

    机电系统中的故障检测对其可维护性和安全性至关重要。然而,系统监测变量往往具有复杂的联系,很难表征它们的关系并提取有效的特征。本文开发了一种基于因果路径的层次图卷积注意力网络(HGCAN),以提高复杂
    的头像 发表于 11-12 09:52 199次阅读
    一种基于因果路径的层次图卷积<b class='flag-5'>注意力</b><b class='flag-5'>网络</b>

    BP神经网络在语言特征信号分类中的应用

    随着人工智能技术的飞速发展,语言特征信号分类作为语音识别、语种识别及语音情感分析等领域的重要基础,正逐渐受到研究者的广泛关注。BP神经网络(Back Propagation Neural
    的头像 发表于 07-10 15:44 336次阅读

    nlp神经语言和NLP自然语言的区别和联系

    来改变我们的行为和情感NLP的目标是帮助人们实现自我改进,提高沟通技巧,增强领导和解决问题的能力。 NLP的主要组成部分包括: 感知:了解我们如何接收和处理信息。 语言:研究我们如
    的头像 发表于 07-09 10:35 720次阅读

    nlp自然语言处理基本概念及关键技术

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言。NLP技术在机器翻译、情感分析、语音识别
    的头像 发表于 07-09 10:32 526次阅读

    nlp自然语言处理的主要任务及技术方法

    的应用,如搜索引擎、机器翻译、语音识别、情感分析等。 NLP的主要任务 NLP的主要任务可以分为以下几个方面: 1.1 词法分析(Lexical Analysis) 词法分析是
    的头像 发表于 07-09 10:26 894次阅读

    llm模型有哪些格式

    : 基于Transformer的模型 Transformer是一种基于自注意力机制的模型,广泛应用于NLP领域。基于Transformer的LLM模型包括: a. BERT(Bidirectional Encoder
    的头像 发表于 07-09 09:59 557次阅读

    NLP模型中RNN与CNN的选择

    在自然语言处理(NLP)领域,循环神经网络(RNN)与卷积神经网络(CNN)是两种极为重要且广泛应用的网络结构。它们各自具有独特的优势,适用于处理不同类型的
    的头像 发表于 07-03 15:59 448次阅读

    卷积神经网络在文本分类领域的应用

    在自然语言处理(NLP)领域,文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)在图像识别领域取得了
    的头像 发表于 07-01 16:25 631次阅读

    【大规模语言模型:从理论到实践】- 阅读体验

    注意力机制提高了模型在处理长序列数据时的性能,但在某些任务上,传统的循环神经网络(RNN)或卷积神经网络(CNN)可能仍然具有优势。此外,注意力机制本身也可能存在某些性能瓶颈,需要进一
    发表于 06-07 14:44

    基于神经网络的呼吸音分类算法

    分类器、呼吸(或异常)分类器和某种称为MASK的注意力。该模型的示意图如图1所示。 首先,在模型训练之前,将每个声音样本分割在长度相等的帧上。对于声音样本只有一个异常标签,对于每个帧只有一个噪声标签
    发表于 05-31 12:05

    采用单片超构表面与元注意力网络实现快照式近红外光谱成像

    日前,北京理工大学王涌天教授、黄玲玲教授团队联合张军院士、边丽蘅教授团队,采用单片超构表面与元注意力网络实现快照式近红外光谱成像。
    的头像 发表于 04-25 09:08 1057次阅读
    采用单片超构表面与元<b class='flag-5'>注意力</b><b class='flag-5'>网络</b>实现快照式近红外光谱成像

    纽约时报回应“黑客入侵”说:OpenAI试图转移公众注意力

    另外,尽管纽约时报承认曾以提示引导ChatGPT以使用其记忆(包括100多篇《纽约时报》文章作为训练数据)仿写出完整文章,但其理由是用户常借此突破网络限制。
    的头像 发表于 03-13 13:39 451次阅读

    工业路由器如何网络过滤

    工业路由器如何网络过滤 工业路由器作为企业和公共场所网络的核心设备,拥有强大的处理能力和安全性,网络过滤是其最基本的安全功能之一。本文将
    的头像 发表于 12-19 14:34 751次阅读

    理解KV cache的作用及优化方法

    MQA (Multi Query Attention,多查询注意力) 是多头注意力的一种变体。其主要区别在于,在 MQA 中不同的注意力头共享一个K和V的集合,每个头只单独保留了一份查询参数。
    的头像 发表于 12-04 15:24 6663次阅读
    理解KV cache的作用及优化方法