ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG：通过不确定性建模，两行代码完成部署-电子发烧友网

在本篇工作中，研究者探索了一种统一的学习方法，通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程，在三个公共数据集FashionIQ、Fashion200k 和 Shoes上，所提出的方法在baseline上分别提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

论文题目： Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 论文链接： https://arxiv.org/abs/2211.07394 论文代码： https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤，即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像，而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点？

1. 传统的图像检索系统要求用户提前提供准确的查询图像，通常是不好获得；而添加文本反馈，用户则可以对查询图像进行的修改，来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离，这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览

在这篇论文中，研究者不追更精细的网络结构，而是采用一种新的学习策略。因此，主要遵循现有的工作CosMo[1]来构建网络以进行公平比较，更多的结构细节在论文中进行了提供。

给定源图像和用于修改的文本，我们通过Compositor组合和得到了组合特征。同时，我们通过与源图像相同的Image Encoder提取了目标图像的视觉特征。我们的主要贡献是通过Augmenter进行不确定性建模，以及对粗匹配进行的不确定性正则化。

2、不确定性建模

如上图所示，不再采用严格的一对一匹配，而是促使模型专注于一对多匹配，即从细粒度过渡到粗粒度。因此，首先引入了一个用于噪声增强的Augmenter来生成抖动，这个模块直接作用于最终的特征空间。具体而言，Augmenter向目标特征添加原始特征分布的高斯噪声。高斯噪声的均值和标准差是从原始特征计算得出的。因此，最终的抖动特征可以表示为：

其中，和是与输入目标特征具有相同形状的噪声向量，，而。通过这种方式可以使特征在有限程度上波动，接近于原始分布。

3、不确定性正则化

现有的方法通常采用InfoNCE损失函数，可以看作是一种batch分类损失函数（batch-wise classification loss）。其简单表述如下：

对于一个具有个样本的batch，给定图文合成特征和目标特征，InfoNCE损失同时最大化自相似性并最小化batch中与其他样本相似性。可以看出，InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性（Aleatoric Uncertainty）[2]的启发，给定两种类型的特征和，不确定性正则化可以定义如下：

为了优化多粒度检索性能，采用了细粒度损失和论文提出的不确定性正则化的组合。因此，总损失如下：

三、实验

1、实验设置

论文在多个数据集上（FashionIQ、Fashion200k、Shoes）测试了方法的准确性，提升了召回率。代码已经公开在github上。

2、实验结果

展示了一些论文结果，更多的实验结果和消融实验请参考论文。

在FashionIQ上的结果

在Fashion200k和Shoes上的结果

四、总结

总的来说，该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模，从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围，并根据波动范围自适应地调整权重。与现有方法相比，所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言，所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

建模

建模

+关注

关注
1

文章
314

浏览量
61015
模型

模型

+关注

关注
1

文章
3406

浏览量
49457
图像检索

图像检索

+关注

关注
0

文章
28

浏览量
8068
检索系统

检索系统

+关注

关注
0

文章
8

浏览量
6460

原文标题：ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG：通过不确定性建模，两行代码完成部署

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

如何创造可信任的机器学习模型？先要理解不确定性

来源：机器之心编译作者：Eric Jang 不确定性是机器学习领域内一个重要的研究主题，Eric Jang近日的一篇博客对这一主题进行了详细的阐述。顺便

发表于 01-10 10:42 •1050次阅读

如何创造可信任的机器学习模型？先要理解<b class='flag-5'>不确定性</b>

E8364C PNA的不确定性和跟踪是什么？

在中断后，我回到网络分析仪，并提出一个简单的问题。我正在阅读E8364C PNA的数据表，并遇到了E8364C PNA，不确定性和跟踪，但没有解释这些术语。我的猜测是，不确定性是与公认

发表于 10-18 17:03

是否可以使用全双端口校准中的S11不确定性来覆盖单端口校准的不确定性？

我们一直在使用Agilent VNA不确定度计算器电子表格，让我们了解我们测量的设备的不确定性。有关单端口校准的问题：目前您必须从电子表格中选择您的VNA（带宽和平均值），然后选择校准类型（全双端口

发表于 12-29 16:32

N5531S TRFL不确定性

我正在尝试使用N5531S（选择550传感器）测量接收器系统测量0到-130dBm的绝对功率水平，然后计算它的不确定性。安捷伦的应用笔记已经提到，不确定度可以使用公式+/-计算（功率计范围2-4

发表于 02-19 15:40

435B-K05输出不确定性

以及将435B-K05的输出结果与UUT功率计的参考输出进行比较来准确测量输出。我反对他们的方法的理由是，通过两次测量，不匹配不确定度和仪表误差不确定性将加倍，更不用说必须包括435B

发表于 08-02 14:33

测试系统不确定性分析

测试系统不确定性分析

发表于 09-18 09:19

5G网络架构的不确定性及其对承载网的影响

中一些不确定性问题的分析，提出以下建议：　　（1）基站应采用适度规模集中部署方式，充分利用现有LTE网络的前传光缆网络资源，在5G做连续覆盖时，新增基站前传光缆建设应充分利用现有光缆网

发表于 12-03 16:03

傅里叶变换与不确定性看了就知道

傅里叶变换与不确定性

发表于 12-30 06:41

一种求解动态及不确定性优化问题的新方法

一种求解动态及不确定性优化问题的新方法_刘晓

发表于 01-07 18:56 •0次下载

三相电压型变换器不确定性建模及滑模控制方法_刘雄飞

三相电压型变换器不确定性建模及滑模控制方法_刘雄飞

发表于 01-08 11:28 •0次下载

连续值信息系统的不确定性度量

不确定性的度量方法是人工智能研究的重要课题之一，受到国内外专家学者的广泛关注，相关研究成果已经成功的应用于数据挖掘，决策分析，模式识别与人工智能领域中。通过二元关系与熵，对连续值信息系统中的不

发表于 11-29 15:22 •0次下载

如何用不确定性解决模型问题

再比如，你想搭建一个模型，要在一系列动物图片中预测哪种动物会吃掉你。假设你在训练时给模型提供的都是狮子和长颈鹿的照片，现在模型看到了一张僵尸照片。由于之前它没有见过僵尸，所以这里的不确定性

发表于 09-07 09:45 •5368次阅读

针对自闭症辅助的不确定性联合组稀疏建模方法

，提出一种新型的不确定性联合组稀疏建模方法JGSI-TSK，并将其用于自闭症的辅助诊断。首先，对原始rs-MRI数据进行预处理和特征提取，得到低维特征数据;然后，基于TSK模糊系统框架

发表于 04-07 11:23 •2次下载

将不确定性感知和姿态回归结合用于自动驾驶车辆定位

提出了一种联合训练姿态估计和不确定性的方法，其具有可靠的不确定性估计和改进的训练稳定性。

发表于 01-30 11:30 •1599次阅读

科技云报到：数字化转型，从不确定性到确定性的关键路径

科技云报到：数字化转型，从不确定性到确定性的关键路径

发表于 11-16 16:52 •464次阅读

搜索历史

ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG：通过不确定性建模，两行代码完成部署

评论