0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种通用匹配对齐框架MAF

深度学习自然语言处理 来源:知识工场 作者:黄世洲 2022-09-06 16:16 次阅读

命名实体识别是NLP领域中的一项基础任务,在文本搜索、文本推荐、知识图谱构建等领域都起着至关重要的作用,一直是热点研究方向之一。多模态命名实体识别在传统的命名实体识别基础上额外引入了图像,可以为文本补充语义信息来进行消岐,近些年来受到人们广泛的关注。

尽管当前的多模态命名实体识别方法取得了成功,但仍然存在着两个问题:(1)当前大部分方法基于注意力机制来进行文本和图像间的交互,但由于不同模态的表示来自于不同的编码器,想要捕捉文本中token和图像中区域之间的关系是困难的。如下图所示,句子中的‘Rob’应该和图像中存在猫的区域(V5,V6,V9等)有着较高的相似度,但由于文本和图像的表示并不一致,在通过点积等形式计算相似度时,‘Rob’可能会和其它区域有着较高的相似度得分。因此,表示的不一致会导致模态之间难以建立起较好的关系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)当前的方法认为文本与其随附的图像是匹配的,并且可以帮助识别文本中的命名实体。然而,并不是所有的文本和图像都是匹配的,模型考虑这种不匹配的图像将会做出错误的预测。如下图所示,图片中没有任何与命名实体“Siri”相关的信息,如果模型考虑这张不匹配的图像,便会受图中“人物”的影响将“Siri”预测为PER(人)。而在只有文本的情况下,预训练模型(BERT等)通过预训练任务中学到的知识可以将“Siri”的类型预测为MISC(杂项)。

为了解决上述存在的问题,本文提出了MAF,一种通用匹配对齐框架(General Matching and Alignment Framework),将文本和图像的表示进行对齐并通过图文匹配的概率过滤图像信息 。由于该框架中的模块是插件式的,其可以很容易地被拓展到其它多模态任务上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整体框架

本文框架如下图所示,由5个主要部分组成:

Input Representations

将原始的文本输入转为token序列的表示以及文本整体的表示,将原始的图像输入转为图像区域的表示以及图像整体的表示。

Cross-Modal Alignment Module

接收文本整体的表示和图像整体的表示作为输入,通过对比学习将文本和图像的表示变得更为一致。

Cross-Modal Interaction Module

接收token序列的表示以及图像区域的表示作为输入,使用注意力机制建立起文本token和图像区域之间的联系得到文本增强后的图像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增强后的图像的表示作为输入,用于判断文本和图像匹配的概率,并用输出的概率对图像信息进行过滤。

Cross-Modal Fusion Module

将文本token序列的表示和最终图像的表示结合在一起输入到CRF层进行预测。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

实验

主要结果

本文的方法在Twitter-2015和Twitter-2017数据集上效果均优于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

运行时间

本文的方法相比于之前的方法除了有着模态之间交互的模块(本文中为CI),还添加了对齐模态表示的CA以及判断图文是否匹配的CM,这可能会导致训练成本以及预测成本增加。但本文简化了模态之间交互的过程,因此整体训练和预测时间以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融实验

本文进行了消融实验,验证了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

样例分析

本文还进行了样例分析来更加直观地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3578

    浏览量

    134036
  • MLP
    MLP
    +关注

    关注

    0

    文章

    57

    浏览量

    4220

原文标题:用于多模态命名实体识别的通用匹配对齐框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    I2S有左对齐,右对齐跟标准的I2S三格式,那么这三格式各有什么优点呢?

    大家好,关于I2S格式,有两个疑问请教下 我们知道I2S有左对齐,右对齐跟标准的I2S三格式,那么这三格式各有什么优点呢? 而且对于
    发表于 10-21 08:23

    荣耀终端发布指纹匹配专利,聚焦电子设备领域

    此项技术研究揭示了一种指纹匹配方法及其对应的电子设备应用,具有增强指印解锁图像与指纹模板图像配对成功率的优势,从而提升用户的使用体验。其具体策略包括:在指印解锁图像无法与电子设备指纹模板图像相
    的头像 发表于 03-21 09:43 508次阅读
    荣耀终端发布指纹<b class='flag-5'>匹配</b>专利,聚焦电子设备领域

    一种高效的KV缓存压缩框架--GEAR

    GEAR框架通过结合三互补的技术来解决这挑战:首先对大多数相似幅度的条目应用超低精度量化;然后使用低秩矩阵来近似量化误差。
    发表于 03-19 10:12 305次阅读
    <b class='flag-5'>一种</b>高效的KV缓存压缩<b class='flag-5'>框架</b>--GEAR

    介绍一种OpenAtom OpenHarmony轻量系统适配方案

    本文在不改变原有系统基础框架的基础上, 介绍一种OpenAtom OpenHarmony(以下简称“OpenHarmony”)轻量系统适配方案。
    的头像 发表于 03-05 09:24 1038次阅读
    <b class='flag-5'>介绍</b><b class='flag-5'>一种</b>OpenAtom OpenHarmony轻量系统适配方案

    大语言模型中的语言与知识:一种神秘的分离现象

    自然语言处理领域存在着个非常有趣的现象:在多语言模型中,不同的语言之间似乎存在着一种隐含的对齐关系。
    发表于 02-20 14:53 482次阅读
    大语言模型中的语言与知识:<b class='flag-5'>一种</b>神秘的分离现象

    无线遥控开关原理 无线遥控开关怎么配对

    。 第部分:无线遥控开关的原理 无线遥控开关是一种通过无线传输技术,将信号发送给控制继电器的设备,实现对电器开关的远程控制。其原理主要包括无线信号发射和接收。 无线信号发射:无线遥控开关通过无线发射模块将控制信
    的头像 发表于 01-22 16:27 7306次阅读

    什么是匹配滤波器?如何理解匹配滤波器?

    [导读]为增进大家对匹配滤波器的认识,本文将对匹配滤波器、匹配滤波器的详细理解予以介绍匹配滤‍波器作为滤波器的
    的头像 发表于 01-12 08:39 1533次阅读

    OneLLM:对齐所有模态的框架

    OneLLM 是第个在单个模型中集成八不同模态的MLLM。通过统框架和渐进式多模态对齐pipelines,可以很容易地扩展OneLL
    的头像 发表于 01-04 11:27 893次阅读
    OneLLM:<b class='flag-5'>对齐</b>所有模态的<b class='flag-5'>框架</b>!

    一种基于表征工程的生成式语言大模型人类偏好对齐策略

    最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程(Representation Engineering)的生成式语言大模型人类偏好对齐方法RAHF(如图1所示),作为基于人类反馈的强化
    的头像 发表于 01-03 14:25 485次阅读
    <b class='flag-5'>一种</b>基于表征工程的生成式语言大模型人类偏好<b class='flag-5'>对齐</b>策略

    2.4g接收器配对的方法

    准备台2.4G发送器和台2.4G接收器。这两个设备通常都是由同个制造商提供,并且它们之间已经预先进行了无线配对,因此它们可以配对成功。
    的头像 发表于 12-11 10:55 8462次阅读

    vlookup精确匹配介绍

    VLOOKUP函数是Excel中最常用的函数之,它用于在个数据表中查找某个值,并返回与该值相关联的数据。在使用VLOOKUP函数时,可以选择是否进行精确匹配。 精确匹配即要求查找的
    的头像 发表于 12-01 11:17 1883次阅读

    springboot框架介绍

    Spring Boot 是个开源的、用于开发微服务的框架,它基于 Java 平台。它提供了一种快速、敏捷的方式来构建独立的、可部署的、生产级别的 Spring 应用程序。Spring Boot
    的头像 发表于 11-22 15:53 1256次阅读

    一种在线激光雷达语义分割框架MemorySeg

    本文提出了一种在线激光雷达语义分割框架MemorySeg,它利用三维潜在记忆来改进当前帧的预测。传统的方法通常只使用单次扫描的环境信息来完成语义分割任务,而忽略了观测的时间连续性所蕴含的上下文信息
    的头像 发表于 11-21 10:48 537次阅读
    <b class='flag-5'>一种</b>在线激光雷达语义分割<b class='flag-5'>框架</b>MemorySeg

    一种高性能多通道通用DMA设计与实现

    为充分发挥异构多核DSP芯片的实时计算能力,设计并实现了一种高性能多通道的通用DMA,该DMA最大支持64个通道的数据搬运,并支持维、二维、转置以及级联描述符等多种传输模式。芯片实测传输性能最高可达11.7 GB/s,实现了高
    的头像 发表于 11-20 15:52 1064次阅读
    <b class='flag-5'>一种</b>高性能多通道<b class='flag-5'>通用</b>DMA设计与实现

    一种应用于智能家电嵌入式软件的框架构件规范

    电子发烧友网站提供《一种应用于智能家电嵌入式软件的框架构件规范.pdf》资料免费下载
    发表于 11-17 10:56 1次下载
    <b class='flag-5'>一种</b>应用于智能家电嵌入式软件的<b class='flag-5'>框架</b>构件规范