0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究人员为多模态NER任务提出新颖的关系增强图卷积网络

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-09-28 11:41 次阅读

命名实体识别(NER)是信息抽取的一项基本任务,它的目的是识别文本片段中的实体及类型,如人名(PER),地名(LOC)和组织名(ORG)。命名实体识别在许多下游任务都有着广泛的应用,如实体链接和关系抽取。

最近,大多数关于NER的研究只依靠文本模态来推断实体标签[3,4,5],然而,当文本中包括多义实体时,只依赖文本模态的信息来识别命名实体就变得非常困难[6,7]。一种有希望的解决方案是引入其他模态(比如图像)作为文本模态的补充。如图1所示,Twitter文本中出现的单词“Alibaba”可以被识别为多种类型的实体,例如人名或组织名,但当我们将单词“Alibaba”与图片中的视觉对象person对齐后,组织名就会被过滤掉。

从上面的例子中可以看出,将文本中的单词与图片中的视觉对象对齐是多模态命名实体识别任务(MNER)的核心。为此做了很多努力,大致可以分为以下三个方面:(1)将整张图片编码为一个全局特征向量,然后设计有效的注意力机制来提取与文本相关的视觉信息[6];(2)将整张图片平均地分为多个视觉区域,然后显式地建模文本序列与视觉区域之间的相关性[7,8,9,10,11,12];(3)仅保留图片中的视觉对象区域,然后将其与文本序列进行交互[13,14,15,16]。

尽管取得了很好的效果,但上述研究独立地建模了一对图片和文本中的内部匹配关系,忽略了不同(图片、文本)对之间的外部匹配关系。在这项工作中,我们认为这种外部关系对于缓解 MNER 任务中的图片噪声至关重要。具体来说,我们探索了数据集中的两种外部匹配关系:

模态间关系(Inter-modal relation):从文本的角度来看,一段文本可能与数据集中的多张图片存在关联,当文本中的命名实体没有出现在相应的图片中时,其它相关图片通常对识别文本中的命名实体是有帮助的。如图2(b)所示,句子S2中的命名实体"Trump"没有出现在相应的图片中,因此仅仅依靠非正式的句子S2很难推断出命名实体标签。然而,当考虑到与句子 S2 密切相关的其他图片时(例如图2(a)和2(c)),句子S2中的命名实体标签大概率是“PER”,因为这些相关的图片中都包含了视觉对象person。因此,一个可行且自然的方法是建立不同(图片、文本)对中图片与文本之间的关联;

模态内关系(Intra-modal relation):从图片的角度来看,不同的图片中往往包含着相同类型的视觉对象,清晰的视觉对象区域比模糊的视觉对象区域更容易识别命名实体标签。例如,图2(d)与2(e)中都包含了视觉对象person,虽然通过图2(d)中模糊的视觉对象区域来推断句子 S4 中的命名实体标签相对困难,但我们根据图2(e)可以推断出句子S4中的命名实体标签很可能是“PER”,因为图2(e)中清晰的视觉对象更容易推断出命名实体标签"PER"。因此,一个可行且自然的方法是建立不同(图片、文本)对中图片之间的关联;

669b982a-398b-11ed-9e49-dac502259ad0.png

图:每个蓝色框包含数据集中的一对图片和文本。命名实体及其对应的实体类型在文本中突出显示。黑色箭头表示图像-文本对中的内部匹配关系。绿色箭头表示不同图文对中图片和文本之间的模态间关系,红色箭头表示不同图文对中图片之间的模态内关系

为了更好地建模上述两种外部匹配关系,我们提出了一个用于多模态NER任务的关系增强图卷积网络(R-GCN)。具体来说,R-GCN主要包括两个模块:第一个模块构建了一个模态内关系图和一个模态间关系图分别来收集数据集中与当前图片和文本最相关的图片信息。第二个模块执行多模态交互和融合,最终预测 NER 的标签序列。广泛的实验结果表明,我们的R-GCN网络在两个基准数据集上始终优于当前最先进的工作。

贡献

1.据我们所知,我们是第一个提出利用不同(图片、文本)对之间的外部匹配关系来提升MNER任务性能的工作;

2. 我们设计了一个关系增强的图卷积神经网络来同时建模模态间关系和模态内关系;

3. 我们在两个基准数据集上的实验结果都达到了最先进的性能,进一步的实验分析验证了我们方法的有效性;

解决方案

6780623e-398b-11ed-9e49-dac502259ad0.png

图3:R-GCN模型的整体架构

在本文中,我们提出了关系增强的图卷积神经网络R-GCN来建模两种外部匹配关系,图3展示了该模型的整体架构。它主要由四个模块组成:(1) 模态间关系模块;(2) 模态内关系模块;(3)多模态交互模块;(4)CRF解码模块。下面,我们主要介绍前两个核心模块。

模态间关系:根据我们的观察,一段文本可能与数据集中的多张图片存在关联,当文本中的命名实体没有出现在相应的图片中时,其它相关图片通常对识别文本中的命名实体是有帮助的。为此,我们提出了模态间关系图从数据集中收集与输入句子具有相似含义的其他图片。下面,我们将详细介绍如何构建模态间关系图的顶点和边:

顶点:模态间关系图中有两种类型的顶点,分别是文本节点和图片节点。文本结点作为中心节点,它通过将句子输入到预训练模型BERT中得到,而图片节点是从预训练模型 ResNet [17]中提取的图片表示,旨在为中心节点提供辅助信息。

边:我们的目标是衡量数据集中其他图片是否包含输入句子中提及的相似场景。然而,由于图片与文本之间存在天然的语义鸿沟,因此实现这个目标并不容易。为此,我们首先利用image caption模型[18]将图片转化为文本描述,然后将输入句子和文本描述之间的cos相似度视为文本节点和图片节点之间的边。

模态内关系:就像前面提到的,当不同的图片中包含着相同类型的视觉对象时,清晰的视觉对象区域比模糊的视觉对象区域更容易识别文本中的命名实体标签。为此,我们建立了一个模态内关系图从数据集中收集与输入图片包含相同类型视觉对象的其它图片。下面,我们将详细介绍如何构建模态内关系图的顶点和边:

顶点:对于数据集中的每张图片,我们将从预训练ResNet中提取的图片特征作为图片节点,其中当前输入图片对应的特征表示作为中心节点。

边:我们的目标是衡量数据集中的其他图片是否包含与输入图片相同类型的视觉对象。显然,ResNet没有能力获得图片中的视觉对象区域。因此,我们首先利用目标检测模型Faster-RCNN为每张图片生成一组视觉对象,然后将输入图片和数据集中其它图片的视觉对象表示之间的余弦相似度作为图片节点之间的边。

我们使用图卷积神经网络来建模这两种外部匹配关系,为每个模态生成关系增强的特征向量。此外,和以前的方法一样,我们通过多模态交互模块建模了图片和文本之间的内部匹配关系,最后,我们使用条件随机场[4]对文本表示进行解码,识别出文本序列中包含的命名实体。

实验

我们在两个公开的数据集Twitter2015和Twitter2017上进行实验,结果如表 1 所示,我们报告了整体的Precision, Recall和F1 score,以及每种实体类型的F1 score。与之前的工作一样,我们主要关注整体的F1 score。实验结果表明,与UMT和UMGF等多模态NER模型相比,R-GCN在两个数据集上都取得了有竞争力的结果。值得一提的是,我们的R-GCN模型在F1 score上分别超出了目前性能最好的模型UMGF 1.48%和1.97%。此外,从单个实体类型来看,R-GCN在Twitter2015数据集上最多超过UMGF 1.86%,在Twitter2017数据集上最多超过UMGF 5.08%。这些结果验证了我们模型的有效性。

表1:主实验结果

67b3851a-398b-11ed-9e49-dac502259ad0.png

表2:模态内关系模块和模态间关系模块的消融实验结果

6800799c-398b-11ed-9e49-dac502259ad0.png

为了研究单个模块和多个模块的组合对模型整体效果的影响,我们对 R-GCN 中的两个模块进行了消融研究,即模态内关系模块(IntraRG)和模态间关系模块(InterRG),从表2中我们可以得出以下结论:

1. 移除任意一个模块都会使总体性能变差,这验证了利用数据集中不同(图片,文本)对中的外部匹配关系来提升MNER任务性能的合理性。同时移除IntraRG和InterRG模块后性能进一步下降,这说明IntraRG和InterRG这两个模块从不同的视角提升了MNER任务的性能;

2. 与Intra-RG相比较,Inter-RG对R-GCN模型的影响更大。这是因为我们主要依靠文本序列来预测NER标签。因此,将相似的图片信息聚集到文本序列中对我们模型的贡献更大,这与我们的期望是一致的。

案例分析

为了更好的理解IntraRG模块和InterRG模块的作用,我们定性地比较了我们的方法与当前性能最好的两个方法UMT和UMGF的结果。在图4(a)中,句子中的命名实体“KyrieIrving”没有出现在对应的图片中,所以UMT和UMGF错误地将该实体预测为了“MISC”。然而,在InterRG模块的帮助下,该句子可以与数据集中的其他图片建立联系,考虑到这些相关的图片中都包含了视觉对象person,因此模型给出了正确的标签预测“PER”。在图4(b)中,显然视觉对象区域是模糊的,这为命名实体的识别带来了很大的挑战,因此UMT和UMGF都认为句子中没有命名实体。但是在 IntraRG 的帮助下,我们将包含清晰视觉对象区域的相似图片聚合到当前图片中从而做出正确的预测,因为这些清晰的视觉对象区域降低了识别命名实体的难度。

6a5c82a8-398b-11ed-9e49-dac502259ad0.png

图:错误类型分析

此外,我们还对模型进行了错误分析。具体来说,我们随机抽取了R-GCN模型预测错误的100个样例,并将其归纳为三种错误类型。图5展示了每种错误类型的比例以及一些代表性示例。

1. 第一类为标注带来的偏差,在图5(a)中,命名实体“Pebble Beach Residence”被标注为“ORG”,但如果我们将其标注为“LOC”也是合理的,在这种情况下,我们的模型很难区分它们,因为它们都是正确的。

2.第二类为背景知识缺乏,在图5(b)中,命名实体“Jonas brother”是一个著名乐队的名字,在缺乏背景知识的情况下,模型很容易将该实体识别为“PER”

3. 第三类为信息缺失,在图5(c)中,句子非常的短,图片中的内容也很简单,它们不能为模型提供足够的信息来判断实体类型。

对于这几类典型的错误,未来应该会有更先进的自然语言处理技术来解决它们。

总结

在本文中,我们为多模态NER任务提出了一个新颖的关系增强图卷积网络。我们方法的主要思想是利用不同(图像、文本)对中的两种外部匹配关系(即模态间关系和模态内关系)来提高识别文本中命名实体的能力。大量实验的结果表明,我们的模型比其他先进的方法具有更好的性能。进一步的分析也验证了R-GCN模型的有效性。

在未来,我们希望将我们的方法应用到其他多模态任务中,比如多模态对话或者多模态蕴含。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3160

    浏览量

    48703
  • NER
    NER
    +关注

    关注

    0

    文章

    7

    浏览量

    6203
  • 图卷积网络
    +关注

    关注

    0

    文章

    8

    浏览量

    1501

原文标题:ACMMM2022 | 从不同的文本图片对中学习:用于多模态NER的关系增强图卷积网络

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是图卷积神经网络

    图卷积神经网络
    发表于 08-20 12:05

    卷积神经网络模型发展及应用

    network,DBN)[24], 从此拉开了深度学习大幕。随着深度学习理论的研究和发展,研究人员提 出了一系列卷积神经网络模型。为了比较不同模型 的质量,收集并整理了文献中模型在分
    发表于 08-02 10:39

    卷积神经网络的振动信号模态参数识别

    针对现有的时域模态参数识别方法大多存在难定阶和抗噪性差的问题,提出一种无监督学习的卷积神经网络(CNN)的振动信号模态识别方法。该算法在
    发表于 12-05 14:39 5次下载
    <b class='flag-5'>卷积</b>神经<b class='flag-5'>网络</b>的振动信号<b class='flag-5'>模态</b>参数识别

    如何使用尺度多任务卷积神经网络进行人群计数的详细资料说明

    智能监控领域,实现人群计数具有重要价值,针对人群尺度不一、人群密度分布不均及遮挡等问题,提出一种尺度多任务卷积神经网络( MMCNN)进行
    发表于 03-28 15:37 6次下载
    如何使用<b class='flag-5'>多</b>尺度多<b class='flag-5'>任务</b><b class='flag-5'>卷积</b>神经<b class='flag-5'>网络</b>进行人群计数的详细资料说明

    什么是图卷积网络?为什么要研究GCN?

    下面就让我们来深入了解一下什么是图卷积网络,以及它在行为识别领域的最新工作进展吧!
    的头像 发表于 06-10 14:07 2.8w次阅读

    研究人员提出了一系列新的点云处理模块

    为了探索这些问题的解决办法、来自伦敦大学学院的研究人员提出了一系列新的点云处理模块,从效率、信息共享和点云卷积操作等方面进行了研究,得到了更宽、更深、更快效率更高的点云处理
    的头像 发表于 08-02 14:44 3037次阅读
    <b class='flag-5'>研究人员</b>们<b class='flag-5'>提出</b>了一系列新的点云处理模块

    使用尺度多任务卷积神经网络进行人群计数的资料说明

    在智能监控领域,实现人群计数具有重要价值,针对人群尺度不一、人群密度分布不均及遮挡等问题,提出一种尺度多任务卷积神经网络(MMCNN)进行
    发表于 11-06 15:46 10次下载
    使用<b class='flag-5'>多</b>尺度多<b class='flag-5'>任务</b><b class='flag-5'>卷积</b>神经<b class='flag-5'>网络</b>进行人群计数的资料说明

    图卷积网络解决语义分割问题

    为了避免上述问题,来自中科院自动化所、北京中医药大学的研究者们提出一个执行图像语义分割任务的图模型 Graph-FCN,该模型由全卷积网络
    的头像 发表于 05-13 15:21 7034次阅读

    基于图卷积的层级图网络用于基于点云的3D目标检测

    (例如稀疏性),所以一些关键的语义信息(如物体形状)不能被很好的捕捉到。本文提出了一种基于层级图网络(HGNet)的 图卷积 (GConv),可以直接将点云作为输入来预测 3D 的边界框。形状注意
    的头像 发表于 06-21 12:15 6180次阅读
    基于<b class='flag-5'>图卷积</b>的层级图<b class='flag-5'>网络</b>用于基于点云的3D目标检测

    研究人员研发一种让自动驾驶汽车免受网络攻击的系统

    据外媒报道,研究人员研发了一种新颖的控制架构,能够保护复杂且网络互连的系统,而此类系统此前容易受到网络攻击。
    的头像 发表于 11-24 09:57 1847次阅读

    如何使用尺度和多任务卷积神经网络实现人群计数

    在智能监控领域,实现人群计数具有重要价值,针对人群尺度不一、人群密度分布不均及遮挡等问题,提出一种尺度多任务卷积神经网络(MMCNN)进行
    发表于 01-18 16:47 9次下载

    基于三维密集卷积网络模态手势识别方法

    增强时间卷积网络(TCNs)在时间特征提取方面的能力,提岀一种基于三维密集卷积网络与改进TCN
    发表于 03-21 09:42 8次下载
    基于三维密集<b class='flag-5'>卷积</b><b class='flag-5'>网络</b>的<b class='flag-5'>多</b><b class='flag-5'>模态</b>手势识别方法

    基于深度图卷积胶囊网络融合的图分类模型

    针对提取图表征用于图分类过程中的结构信息提取过程的问题,提出了一种图卷积神经网络与胶囊网络融合的图分类模型。首先,利用图卷积神经
    发表于 05-07 15:17 9次下载

    基于卷积神经网络的人群计数算法

    解决单幅图像中的人群遮挡和尺度变化问题,提出一种基于卷积神经网络的人群计数算法。利用具有不同尺寸感受野的
    发表于 05-28 11:08 6次下载

    一种基于因果路径的层次图卷积注意力网络

    机电系统中的故障检测对其可维护性和安全性至关重要。然而,系统监测变量往往具有复杂的联系,很难表征它们的关系并提取有效的特征。本文开发了一种基于因果路径的层次图卷积注意力网络(HGCAN),以提高复杂
    的头像 发表于 11-12 09:52 166次阅读
    一种基于因果路径的层次<b class='flag-5'>图卷积</b>注意力<b class='flag-5'>网络</b>