0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

APE:对CLIP进行特征提纯能够提升Few-shot性能

CVer 来源:CVer 2023-07-19 14:19 次阅读

本文介绍我们在ICCV 2023上接收的论文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。这篇文章基于CLIP提出了一种特征提纯的方法为下游任务选择合适的特征,以此来提高下游任务的性能并同时提高计算效率。

cf8bc766-25f2-11ee-962d-dac502259ad0.png

论文: https://arxiv.org/pdf/2304.01195

代码: https://github.com/yangyangyang127/APE

相比于其他方法,我们能够在性能和计算量上实现较好的均衡,如下图所示。

cfc578f8-25f2-11ee-962d-dac502259ad0.png

1. 概述

问题:大规模预训练的视觉-文本模型,如CLIP,BLIP等,能够在多种数据分布下表现出良好的性能,并已经有很多的工作通过few-shot的方式将它们应用于下游任务。但这些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要训练大量的参数(如Tip-Adapter等)。因此我们会问,能否同时实现高few-shot性能且少参数量呢?

出发点和思路:CLIP是一个通用的模型,考虑到下游数据分布的差异,对某个下游任务来说,CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪声。因此,在这篇文章中,我们首先提出一种特征提纯的方法,为每个数据集提纯个性化的特征通道,从而减少了参数量,且提升了计算效率;然后设计了一种参数高效的few-shot框架,提升了CLIP在不同数据集上的few-shot性能,下图是论文的整体流程图。

cfe26134-25f2-11ee-962d-dac502259ad0.png

2. 方法

这一部分中,我们分别介绍特征提纯模块和新提出的few-shot框架。

2.1 特征提纯

CLIP是一个通用的模型,在下游任务上,考虑到数据分布,CLIP提取的特征可能并不全是有用的,因此我们试图为每个下游数据集提纯个性化的特征。我们通过最大化类间差异,或者说最小化类间相似度,来选择合适的特征。对于一个d00e323c-25f2-11ee-962d-dac502259ad0.png类的下游任务,我们计算所有类的所有样本表征之间平均相似度d0243ab4-25f2-11ee-962d-dac502259ad0.png

d03631b0-25f2-11ee-962d-dac502259ad0.png

其中,d04b30c4-25f2-11ee-962d-dac502259ad0.png代表类的序号,d05efc62-25f2-11ee-962d-dac502259ad0.png代表两个类的先验概率,d073879a-25f2-11ee-962d-dac502259ad0.png代表两个类中的样本数量,d0820d7e-25f2-11ee-962d-dac502259ad0.png是相似度函数,d093087c-25f2-11ee-962d-dac502259ad0.png代表表征。假设d0a3bfb4-25f2-11ee-962d-dac502259ad0.png代表特征通道是否被选中,d0b3335e-25f2-11ee-962d-dac502259ad0.png代表特征维度,d0c654c0-25f2-11ee-962d-dac502259ad0.png代表预先限制d0d95db8-25f2-11ee-962d-dac502259ad0.png个特征被选中,则通过求解d0f50428-25f2-11ee-962d-dac502259ad0.png使得d0243ab4-25f2-11ee-962d-dac502259ad0.png最小我们可以得到需要的特征,即求解以下优化问题:

d12abc4e-25f2-11ee-962d-dac502259ad0.png

其中d140d1be-25f2-11ee-962d-dac502259ad0.png代表逐元素相乘。最后,经过特征提纯,我们在ImageNet上统计了图像和文本相似度的变化,如下图所示。相比于没有特征提纯,我们选定的特征减小了类间相似度,同时增大了图像和文本的匹配程度。且我们提纯出的特征能够获得更好的similarity map。

d15bb0d8-25f2-11ee-962d-dac502259ad0.png

d172e17c-25f2-11ee-962d-dac502259ad0.png

2.2 三边关系的few-shot框架

CLIP等视觉文本模型一般基于测试图像和文本表征的相似度或距离来完成分类任。但除此之外,我们还可以使用测试图像和训练图像的相似度来校正,并使用训练图像和文本的相似度来为困难样本提供额外的信息。基于这种考虑,我们探究了测试图像、文本描述和训练图像之间的三边嵌入关系。

假设d19a8e3e-25f2-11ee-962d-dac502259ad0.png代表测试图像特征,d1ad4e66-25f2-11ee-962d-dac502259ad0.pngd1c034d6-25f2-11ee-962d-dac502259ad0.png分别代表训练图像和文本描述的特征,d1d21688-25f2-11ee-962d-dac502259ad0.png代表训练图像的label,则我们可以建立三边关系,

d1e07b88-25f2-11ee-962d-dac502259ad0.png

其中,d1f44870-25f2-11ee-962d-dac502259ad0.png代表一般的CLIP基于视觉文本相似度的预测,d20ac442-25f2-11ee-962d-dac502259ad0.png代表模态间的相似度,即测试图像和训练图像之间的相似度,d21b229c-25f2-11ee-962d-dac502259ad0.png反映了训练图像对测试图像的贡献。基于以上三种关系,可以得到最终的预测为

d230d0ba-25f2-11ee-962d-dac502259ad0.png

我们可以将特征提纯与三边关系结合起来,直接在选择出来的特征上进行三种关系的few-shot学习,这样可以减少参数和计算效率。我们提出了training-free和training-required两种框架,如下图,后者相比于前者增加了少量可训练的残差。

d24858d4-25f2-11ee-962d-dac502259ad0.png

3. 结果

我们在11个分类数据集上研究了方法的性能,并提出了training-free和training-required两个版本,下图是11个数据集上的平均性能以及和其他方法的比较。

d271d02e-25f2-11ee-962d-dac502259ad0.png

与其他方法相比,我们的计算效率和参数量都有所优化。

d29f8410-25f2-11ee-962d-dac502259ad0.png

提纯的特征通道的数量对结果也有所影响:

d2cb1b3e-25f2-11ee-962d-dac502259ad0.png

感谢您的阅读,更多的实现细节和比较请看我们的文章,我们的代码已开源。感谢您提出宝贵意见。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3217

    浏览量

    48801
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24683
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6660

原文标题:​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于将 CLIP 用于下游few-shot图像分类的方案

    对比性图像语言预训练模型(CLIP)在近期展现出了强大的视觉领域迁移能力,可以在一个全新的下游数据集上进行 zero-shot 图像识别。
    的头像 发表于 09-27 09:46 5242次阅读

    基于特征点精度提纯的图像配准改进算法

    基于特征点精度提纯的图像配准改进算法_刘珊珊
    发表于 01-07 18:39 0次下载

    NLP事件抽取综述之挑战与展望

    /xiaoqian19940510/Event-Extraction Few-shot or zero-shot 2020 Meta-Learning with Dynamic-Memory-Based
    的头像 发表于 01-18 16:33 3810次阅读
    NLP事件抽取综述之挑战与展望

    样本量极少可以训练机器学习模型吗?

    本文首先介绍了用小样本训练模型会导致的问题,再介绍了Few-Shot Learning的基本原理即三大思路下的方法。
    的头像 发表于 06-23 15:02 6937次阅读

    介绍两个few-shot NER中的challenge

    此部分着重介绍了两个few-shot NER中的challenge:limited information challenge和knowledge mismatch challenge。前者主要是指
    的头像 发表于 08-24 10:01 847次阅读

    Few-shot NER的三阶段

    Few-shot NER的三阶段:Train、Adapt、Recognize,即在source域训练,在target域的support上微调,在target域的query上测试。
    的头像 发表于 08-24 16:12 1417次阅读

    介绍一个基于CLIP的zero-shot实例分割方法

    CLIP是近年来在多模态方面的经典之作,得益于大量的数据和算力对模型进行预训练,模型的Zero-shot性能非常可观,甚至可以在众多数据集上和有监督训练媲美。
    的头像 发表于 10-13 09:13 4721次阅读

    使用MobileNet Single Shot Detector进行对象检测

    电子发烧友网站提供《使用MobileNet Single Shot Detector进行对象检测.zip》资料免费下载
    发表于 11-09 09:30 1次下载
    使用MobileNet Single <b class='flag-5'>Shot</b> Detector<b class='flag-5'>进行</b>对象检测

    语言模型性能评估必备下游数据集:ZeroCLUE/FewCLUE与Chinese_WPLC数据集

    零样本学习是AI识别方法之一。简单来说就是识别从未见过的数据类别,即训练的分类器不仅仅能够识别出训练集中已有的数据类别, 还可以对于来自未见过的类别的数据进行区分。小样本学习(Few-shot Learning)是解决在极少数据
    的头像 发表于 03-27 11:38 1433次阅读

    基于GLM-6B对话模型的实体属性抽取项目实现解析

    Zero-shot、One-shot以及Few-shot让人傻傻分不清,读了很多文章,也没搞清楚他们的差别,究竟什么叫zero-shot,其在应用过程中的no gradient upd
    的头像 发表于 03-28 10:11 6939次阅读

    迈向多模态AGI之开放世界目标检测

    OVD的基础概念:OVD的使用主要涉及到 few-shot 和 zero-shot两大类场景,few-shot是指有少量人工标注训练样本的目标类别,zero-shot则是指不存在任何人
    的头像 发表于 06-15 16:08 770次阅读
    迈向多模态AGI之开放世界目标检测

    基于多任务预训练模块化提示

    Few-shot 场景时,PT 的调优方法还是存在一定的局限性。针对这个问题, 复旦提出了多任务预训练模块化 Prompt(简称为:),来提高模型在 Few-shot 场景下的 PT 效果,使模型能够快速适应下游
    的头像 发表于 06-20 11:04 679次阅读
    基于多任务预训练模块化提示

    为什么叫shot?为什么shot比掩膜版尺寸小很多?

    其中,步进投影式光刻机(stepper)的一个shot一个shot进行曝光的,并不是一整张晶圆同时曝光,那么stepper的shot是什么样的?多大尺寸?需要多大的掩膜版?
    的头像 发表于 10-09 18:13 6240次阅读
    为什么叫<b class='flag-5'>shot</b>?为什么<b class='flag-5'>shot</b>比掩膜版尺寸小很多?

    基于显式证据推理的few-shot关系抽取CoT

    最近,上下文学习策略已被证明在没有训练的情况下显示出显著的结果。很少有研究利用上下文学习进行zero-shot信息提取。不幸的是,推理的证据在思维链提示的构建过程中没有被考虑或隐式建模。
    的头像 发表于 11-20 17:44 880次阅读
    基于显式证据推理的<b class='flag-5'>few-shot</b>关系抽取CoT

    更强!Alpha-CLIP:让CLIP关注你想要的任何地方!

    然而CLIP必须以整张图片作为输入并进行特征提取,无法关注到指定的任意区域。然而,自然的2D图片中往往包含不同的物体,part和thing。如果能由用户或检测模型指定需要关注的区域,在图像编码的过程就确定需要关注的对象,将会
    的头像 发表于 12-10 10:28 1031次阅读
    更强!Alpha-<b class='flag-5'>CLIP</b>:让<b class='flag-5'>CLIP</b>关注你想要的任何地方!