一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法-电子发烧友网

引言

本文介绍了复旦大学数据智能与社会计算实验室 (Fudan DISC) 在AAAI 2021上录用的一篇关于多模态匹配的工作:An Unsupervised Sampling Approach for Image-Sentence Matching UsingDocument-Level Structural Information，提出了一种无监督设定下，更有效地利用多模态文档的共现结构信息帮助采样完成句子-图片匹配的方法。本文的合作单位是杭州之江实验室。

文章摘要

文章针对无监督的句子图片匹配任务。现存的方法主要通过利用多模态文档的图片句子共现信息来无监督地采样正负样本对，但是其在获得负样本时只考虑了跨文档的图片句子对，在一定程度上引入了采样的偏差，使得模型无法分辨同一文档内语义较为近似的图片和句子。

在本文中，我们提出了一种新的采样的方法，通过引入同一文档内的图片句子对作为额外的正负样本来减小采样的偏差；进一步，我们提出了一个基于Transformer的模型来识别更为复杂的语义关联，该模型为每个多模态文档隐式地构建了一个图的结构，构建了同一篇文档内句子和图片的表征学习间的桥梁。实验的结果证明了我们提出的方法有效的减小偏差并且进一步获得了更好的跨模态表征。

研究背景

图1. 句子-图片匹配任务说明

（绿色/蓝色点代表图片/句子，红色实线代表匹配关系的标签，红色/蓝色虚线代表无监督方法选出的（伪）正/负样本对）

图片-句子的匹配一直是跨模态领域的基础任务，其根本的目的是对其视觉和文本的语义空间。如(a)所示，两个模态之间本身存在着语义空间上的差异，对其的常见方法是通过有监督的标签拉近匹配的样本对，如(b)所示。在无监督的环境下，最大的挑战即为如何选择出想要拉近的正样本对和远离的负样本对。

如(c)所示，最近的无监督的方法通过文档的图片句子共现信息，通过拉近句子集合和图片集合的方式来进行训练，其中，同文档内语义近似的句子-图片对被看作正样本，而跨文档间的句子-图片对被看作负样本，如(c)所示，这样的方法没有考虑到文档内部语义相似度更高的负样本，其选出的负样本与真实的负样本分布存在着偏差。

于是本文提出了新的采样策略，如(d)所示，我们引入了更多同一文档内部的正负样本对来帮助训练。进一步，为了更好地识别同一文档内更加复杂的句子图片语义匹配模式，我们考虑使用更加细粒度的表征学习方法，提出了一个新的基于Transformer的模型，在其中为每个文档的句子图片间隐性建模了一个图，来帮助获得更好的跨模态表征。

方法描述

采样方法

本文的方法基于三个部分的采样，通过3个训练目标实现，如图2所示。

图2. 三个部分的采样和训练目标示意

第一个部分为之前的工作提出的跨文档训练目标(cross-document objective)。其假设为同一文档内的句子集合和图片集合间的相似度要整体高于来自两个不同文档的句子集合和图片集合间的相似度，背后通过一定的方式来选出几个句子图片对之间的相似度来代表句子集合和图片集合间的相似度。其采样得到的正样本为来自同一文档的语义较为近似的句子-图片对；负样本为来自不同文档的语义较为近似的图片句子对。

第二个部分为文档内部的训练目标(intra-document objective)。其假设为同一篇文档内部的语义近似的图片句子对之间的相似度也要高于内部语义相差较远的图片句子对间的相似度，高于一定的值，在此目标下采样出的正样本为来自同一文档的语义较为近似的句子-图片对；负样本为来自同一文档的语义相差较远的图片句子对。

第三个部分为次跨文档训练目标(dropout sub-document objective)。其假设为即使一篇文档我们将其随机的遮盖住部分的句子/图片，剩下的残缺文档内的句子集合和图片集合间的相似度也要高于跨文档间的图片集合-句子集合间的相似度。在此目标下采样出的正样本为来自同一“残次”文档的语义较为近似的句子-图片对；负样本为来自不同文档的语义近似的图片句子对。

跨模态表征模型

图3. 总的模型结构示意

由于引入了更多的同一文档内的图片句子对，我们需要得到包含更细粒度信息的多模态表征，所以我们将图片分割为区域，将句子分割为token，Transformer可以看作是带有attention机制的图网络，我们通过两个视觉/文本的Transformer对各模态内的（区域/token）节点进行编码，与此同时我们引入了视觉的概念，这里我们将图片区域预测出的标签作为图片包括的概念，将它们作为中间的桥梁将两个模态的图桥接起来。概念会直接加入到视觉的图中，作为节点存在，而概念和文本端的关系通过共享的embedding层来实现。这样的模型里，当句子里直接提到了区域里对应的概念时，我们的模型就能很快地捕捉到这样的匹配关系。

实验

我们在无监督的多句子多图片文档内的跨模态链接预测任务上进行了实验，其中包括了基于MSCOCO, VIST构建出的三个文档数据集。对于每一个文档，其内部有多个句子和多个图片，需要去预测其中句子和图片间是否存在着链接的边（匹配关系），使用AUC/P@1/P@5进行评估。相较于之前只使用cross-document objective的方法（表内MulLink），我们的方法有了明显的提高。

表1. 总的实验结果

同时我们对我们提出的模型的结构，和三个部分的训练目标进行了消融实验：

表2. 部分消融实验的结果

（S列代表采样方法，T代表同时使用三种目标训练，O代表只使用跨文档训练目标，w/o代表without，w/o Transformer的方法里我们使用GRU对句子进行表征，对图片的各个区域进行softmax pooling进行表征。）

可以看到整体上同时使用三种目标可以采样到更多的信息，帮助训练，我们也对三个目标进行了更加细致的消融实验，详情可以参考原文。同时我们提出的模型更好地利用了细粒度的信息，也获得了更好地跨模态表征。

同时，我们进行了有监督、无监督和迁移学习的比较。有监督的方法直接使用文档内的匹配的图片句子对作为训练，如图4，迁移学习则尝试迁移从MSCOCO上进行有监督训练的信息到DII测试集上，如表3。

图4. 有监督-无监督比较

蓝色代表有监督学习下，随着使用的数据增加在测试集上的表现

表3. 迁移学习和无监督学习的比较

可以看到相较于只使用跨文档训练目标，同时使用三种目标得到的更多样本对里包括了更多的信息，我们无监督的方法可以利用训练集内更多的信息（~40%），相较于迁移自其他数据集的信息，也更加有效。

除此之外，我们通过错误分析的方法验证我们的方法对于偏差的修正效果。该偏差的表现为同一文档内的句子和图片更加近似，跨文档内的图片和句子差异更大，所以我们使用文档内的句子/图片表征的发散程度来代表这个差异，同一文档内越发散，训练和测试之间的差异越小。在DII上，我们使用每个文档内句子/图片的发散程度来拟合该文档链接预测的AUC，原来的方法得到的线性模型的R方为42%，也就是说差异能很大程度解释错误的原因，而我们的方法得到的R方为23%，这意味着该差异对于结果的作用减弱了，加上我们模型整体上更好地表现，我们可以认为我们减弱了采样的偏差，使得偏差引起的错误减少了。

结论

在本文里，我们对于无监督的句子-图片匹配任务，针对之前方法存在的采样偏差问题提出了新的采样策略，希望更高效地利用多模态文档内句子和图片共现的结构信息，引入了更多的来自同一文档内的正/负图片-句子对。同时提出了可以利用更细粒度信息的模型，建立了跨模态表征学习的关系桥梁。最终的实验证明了我们方法的有效性。

责任编辑：xj

原文标题：【Fudan DISC】一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语义

语义

+关注

关注
0

文章
21

浏览量
8682
自然语言

自然语言

+关注

关注
1

文章
291

浏览量
13410

原文标题：【Fudan DISC】一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

2025年Next Token Prediction范式会统一多模态吗

各种模态的信息（如图像、视频和音频片段）分解为最小的单元序列（Token），以便 Transformer 结构为基础的 NTP 模型学习。 Tokenization 方法可以分为离散（

发表于 01-21 10:11 •102次阅读

2025年Next Token Prediction范式会统<b class='flag-5'>一多</b><b class='flag-5'>模态</b>吗

体验MiniCPM-V 2.6 多模态能力

多模态组网

jf_23871869

发布于 :2025年01月20日 13:40:48

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •393次阅读

介绍一种 WiMax 双下变频 IF 采样接收机设计方案

介绍了一种 WiMax 双下变频 IF 采样接收机设计方案，详细阐述了其背景知识、架构、实现方法、性能评估等内容，为相关工程人员提供了全面的设计参考。 *附件：一种WiMax双下变频I

发表于 12-18 16:29 •1026次阅读

介绍<b class='flag-5'>一种</b> WiMax 双下变频 IF <b class='flag-5'>采样</b>接收机设计方案

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建

发表于 12-03 15:18 •235次阅读

<b class='flag-5'>一</b>文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型——<b class='flag-5'>下</b>

ADS1191的内部数字滤波，是不是一个固定的根据采样速率来匹配的结构？

想问下ADS1191的内部数字滤波，是不是一个固定的根据我的采样速率来匹配的结构，除开可以调整电容 C-fliter 的容值外，没有其他可调整参数还有就是当我使用多个ADS1191

发表于 11-25 08:20

一种简单高效配置FPGA的方法

本文描述了一种简单高效配置FPGA的方法，该方法利用微处理器从串行外围接口（SPI）闪存配置FPGA设备。这种方法减少了硬件组件、板空间和成本。

发表于 10-24 14:57 •858次阅读

<b class='flag-5'>一种</b>简单高效配置FPGA的<b class='flag-5'>方法</b>

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •614次阅读

一种利用wireshark对远程服务器/路由器网络抓包方法

一种利用wireshark对远程服务器/路由器网络抓包方法

发表于 09-21 08:03 •3678次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

习语言的表达方式和生成能力。通过预测文本中缺失的部分或下一个词，模型逐渐掌握语言的规律和特征。常用的模型结构 Transformer架构：大语言模型通常基于Transformer架构，这是一种能够处理序列数据

发表于 08-02 11:03

一种无透镜成像的新方法

使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。层析成像

发表于 07-19 06:20 •456次阅读

神经网络如何用无监督算法训练

神经网络作为深度学习的重要组成部分，其训练方式多样，其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的

发表于 07-09 18:06 •932次阅读

深度学习中的无监督学习方法综述

应用中往往难以实现。因此，无监督学习在深度学习中扮演着越来越重要的角色。本文旨在综述深度学习中的无监督学习方法，包括自编码器、生成对抗网络、聚类算法等，并分析它们的原理、应用场景以及优

发表于 07-09 10:50 •1010次阅读

谷歌推出多模态VLOGGER AI

谷歌最新推出的VLOGGER AI技术引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER AI就能让

发表于 03-22 10:45 •937次阅读

Meta发布新型无监督视频预测模型“V-JEPA”

Meta，这家社交媒体和科技巨头，近日宣布推出一种新型的无监督视频预测模型，名为“V-JEPA”。这一模型在视频处理领域引起了广泛关注，因为它通过抽象性预测生成视频中缺失或模糊的部分来

发表于 02-19 11:19 •1112次阅读

搜索历史

一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

评论

2025年Next Token Prediction范式会统一多模态吗

体验MiniCPM-V 2.6 多模态能力

商汤日日新多模态大模型权威评测第一

介绍一种 WiMax 双下变频 IF 采样接收机设计方案

一文理解多模态大语言模型——下

ADS1191的内部数字滤波，是不是一个固定的根据采样速率来匹配的结构？

一种简单高效配置FPGA的方法

利用OpenVINO部署Qwen2多模态模型

一种利用wireshark对远程服务器/路由器网络抓包方法

【《大语言模型应用指南》阅读体验】+ 基础知识学习

一种无透镜成像的新方法

神经网络如何用无监督算法训练

深度学习中的无监督学习方法综述

谷歌推出多模态VLOGGER AI

Meta发布新型无监督视频预测模型“V-JEPA”