融合Image-Text和Image-Label两种数据的多模态训练新方式-电子发烧友网

目前CV领域中包括两种典型的训练模式，第一种是传统的图像分类训练，以离散的label为目标，人工标注、收集干净、大量的训练数据，训练图像识别模型。第二种方法是最近比较火的基于对比学习的图文匹配训练方法，利用图像和其对应的文本描述，采用对比学习的方法训练模型。这两种方法各有优劣，前者可以达到非常高的图像识别精度、比较强的迁移能力，但是依赖人工标注数据；后者可以利用海量噪声可能较大的图像文本对作为训练数据，在few-shot learning、zero-shot learning上取得很好的效果，但是判别能力相比用干净label训练的方法较弱。今天给大家介绍一篇CVPR 2022微软发表的工作，融合两种数据的一个大一统对比学习框架。

论文题目：Unified Contrastive Learning in Image-Text-Label Space

下载地址：https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微软发表的这篇工作，希望同时利用图像、文本、label三者的信息，构建一个统一的对比学习框架，同时利用两种训练模式的优势。下图反映了两种训练模式的差异，Image-Label以离散label为目标，将相同概念的图像视为一组，完全忽视文本信息；而Image-Text以图文对匹配为目标，每一对图文可以视作一个单独的label，文本侧引入丰富的语义信息。

两种数据的融合

上面所说的Image-Label和Image-Text两种数据，可以表示成一个统一的形式：（图像，文本，label）三元组。其中，对于Image-Lable数据，文本是每个label对应的类别名称，label对应的每个类别的离散标签；对于Image-Text数据，文本是每个图像的文本描述，label对于每对匹配的图文对都是不同的。将两种数据融合到一起，如下图右侧所示，可以形成一个矩阵，填充部分为正样本，其他为负样本。Image-Label数据中，对应类别的图文为正样本；Image-Text中对角线为正样本。

损失函数

在上述矩阵的基础上，可以利用对比学习的思路构建融合Image-Label和Image-Text两种数据优化函数。对于一个batch内的所有样本，分别使用图像Encoder和文本Encoder得到图像和文本的表示，并进行归一化，然后计算图像文本之间的相似度，和CLIP类似。其中Image-to-Text损失函数可以表示为：

以样本i（文本）为中心，k表示当前batch内，和样本i的label相同的图像，j表示batch内所有其他样本。也就是说，对于每个文本，损失函数的分子是和该文本匹配的图像，分母是batch内所有图像。Text-to-Image损失函数也类似。最终BiC loss是二者之和：

与其他损失函数的对比

BiC loss和交叉熵、Supervised Contrast以及CLIP三种方法的损失函数差别如下图所示，这几种损失函数之间存在着一定的联系。

与交叉熵损失的关系：如果text encoder只是一个普通的全连接，并且batch size相比类别数量足够大，以至于一个batch内所有类别的样本都出现过，那么BiC和交叉熵等价。因此BiC相比交叉熵更具一般性，BiC让具有相似文本描述的图像表示形成类簇，不具有相似文本描述的图像被拉远。文本侧也更加灵活，能够使用任意种类的文本输入，结合更丰富的文本Encoder联合学习。

与SupCon的关系：SupCon是图像对比学习，训练数据每对pair都是图像，共用一个Encoder；而BiC针对的是跨模态对比学习，图片和文本跨模态对齐。但是两者的核心思路都是根据有label数据，将batch内出现样本更多置为正样本。

与CLIP的关系：和CLIP的主要差别在于，利用label信息将一部分非对角线上的元素视为正样本。如果这里不使用Image-Label数据，那么就和CLIP相同。

实验效果

图像分类效果对比：相比使用交叉熵损失和有监督对比学习，文中提出的UniCL在多个模型和数据集上取得较好的效果。尤其是在小数据集上训练时，UniCL比交叉熵训练效果提升更明显，因为引入的图文匹配方式让具有相似语义图像聚集在一起，缓解了过拟合问题。

文本Encoder和损失函数对比：文中也对比了文本Encoder是否引入的效果，如果将Transformer替换成线性层，效果有所下降，表明文本Encoder的引入能够帮助模型学习到1000多个类别之间的关系文本语义关系，有助于提升图像分类效果。同时，如果去掉i2t的loss只保留t2i的loss，会导致效果大幅下降。

Image-Text引入对Image-Label效果提升：对于上面3行和下面3行，下面3行引入额外Image-Text数据的图像分类效果要显著优于只使用图像分类数据的效果。

Image-Label引入对Image-Text效果提升：通过下面实验对比，引入Image-Label对Image-Text效果有一定提升作用。

下图绘制了使用CLIP（左）和UniCL（右）两种方法训练的图像embedding的t-sne图。可以看到，使用CLIP训练的模型，不同类别的图像表示混在一起；而使用UniCL训练的模型，不同类别的图像表示能够比较好的区分。

总结

本文介绍了融合Image-Text和Image-Label两种数据的的多模态训练新方式，充分利用了不同的图像-文本数据，信息相互补充，相比单独使用一个数据取得非常好的效果。Label的引入也让对比学习的正负样本构造更加科学。

原文标题：图文匹配 + 图像分类 = 统一多模态对比学习框架

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7080

浏览量
89177
图像识别

图像识别

+关注

关注
9

文章
520

浏览量
38290
函数

函数

+关注

关注
3

文章
4338

浏览量
62739

原文标题：图文匹配 + 图像分类 = 统一多模态对比学习框架

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

SN74AVC8T245能同时支持推挽输出和开漏输出两种数据进行转换吗？

你好，请问SN74AVC8T245这款芯片能同时支持推挽输出和开漏输出两种数据进行转换吗？

发表于 12-20 06:46

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型，以及构建多

发表于 12-03 15:18 •149次阅读

超声界“内卷终结者”！ZRT智锐通提供全新引擎打造多模态影像融合系统

多模态影像融合超声系统的市场规模也在不断扩大，国内众多超声系统厂家也在不断寻找合适的硬件平台，用以承载旗下的多模态影像

发表于 11-11 10:52 •660次阅读

《DNK210使用指南 -CanMV版 V1.0》第三十七章 image图像对比实验

提供了difference()方法，用于计算两个图像的差值绝对值，difference()方法如下所示：image.difference(image, mask)difference()方法计算

发表于 11-07 09:33

《DNK210使用指南 -CanMV版 V1.0》第三十三章 image元素绘制实验

()方法，用于在图像上绘制字符串，draw_string()方法如下所示：image.draw_string(x, y, text, color=0xFFFF, scale=1.0

发表于 11-04 14:22

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说

发表于 10-18 09:39 •480次阅读

图片动画控件和Video image控件的使用方法

在UI开发过程中，序列帧基本是绕不开的，AWTK 支持多种方法实现序列帧显示，本文介绍图片动画控件和Video image控件的使用方法。

发表于 08-06 16:44 •975次阅读

Labview与Halcon图片Image互相转换

Labview 与Halcon 联合开发分享一下Labview 与Halcon Image格式相互转换的程序，整理了一个VI，LV_to _Halconxl.vi，可以直接调用，相互转换两种格式

发表于 06-27 23:00

鸿蒙ArkTS声明式组件：Image

Image为图片组件，常用于在应用中显示图片。Image支持加载[PixelMap]、[ResourceStr]和[DrawableDescriptor]类型的数据源，支持png、jpg、bmp、svg和gif类型的图片格式。

发表于 06-23 20:32 •965次阅读

OpenHarmony实战开发-如何实现模态转场

模态转场是新的界面覆盖在旧的界面上，旧的界面不消失的一种转场方式。表1 模态转场接口接口说明使用场景 bindContentCover 弹出全屏的模态组件。用于自定义全屏的

发表于 04-28 14:47

未来已来，多传感器融合感知是自动驾驶破局的关键

数据，与现有主流AI计算平台完全兼容，它可以复用已有的图像数据样本，免除了产品的神经网络训练数据需要完全重新采集的困扰。 “多维像素”数据组

发表于 04-11 10:26

测量系统新秀：全自动影像测量仪（闪测仪）IMAGE 3 Pro-H

全自动影像测量仪（闪测仪）IMAGE 3系列的多样型号提供了不同的测量优势，可以根据具体的测量需求和产品特点选择合适的测量仪型号。

发表于 02-20 14:42 •779次阅读

关于多跳通信和单跳通信两种方式有什么区别

多跳通信和单跳通信是两种不同的通信方式，各有优缺点。单跳通信简单直接，但距离有限；多跳通信可以扩大覆盖范围、降低能耗、提高网络性能和可靠性，但需要节点间的协作和信息共享，增加了网络的复

发表于 01-19 17:58 •1818次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •424次阅读

CMOS Image sensor的基础知识

摄像机用来成像的感光元件叫做Image Sensor或Imager。目前广泛使用的2种Image Sensor是CCD和CMOS Image Sensor（CIS）。

发表于 01-15 11:07 •5284次阅读