0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于预训练模型和语言增强的零样本视觉学习

CVer 来源:CVer 2023-06-15 16:36 次阅读

在一些非自然图像中要比传统模型表现更好

ef117f4a-0b3a-11ee-962d-dac502259ad0.jpg

CoOp 增加一些 prompt 会让模型能力进一步提升

ef1f1b3c-0b3a-11ee-962d-dac502259ad0.jpg

怎么让能力更好?可以引入其他知识,即其他的预训练模型,包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

ef419180-0b3a-11ee-962d-dac502259ad0.jpg

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

ef490834-0b3a-11ee-962d-dac502259ad0.jpg

训练的时候使用文本组成的句子

对齐总会有 gap,选 loss 的时候使用 rank loss,对模态 gap 更稳定

ef54761a-0b3a-11ee-962d-dac502259ad0.jpg

拿到文本后有几种选择,比如 Coco 只要其中的 caption 不要图像,或是 Google 搜句子,抑或是语言模型生成

最后选择第一种,因为稳定性和效果更好,能够保证同样数据集(同分布?)

可以建一个同义词表

ef8c6a34-0b3a-11ee-962d-dac502259ad0.jpg

两种 prompt,global 关注句子里有没有猫,local 关心这个词是不是跟猫有关系

efb3859c-0b3a-11ee-962d-dac502259ad0.jpg

测试的时候就将句子变成图像,global 不变,local 变成了跟图像里的 token 做比较

effee6ea-0b3a-11ee-962d-dac502259ad0.jpg

如果再加上少量文本(大量句子和少量文本)性能会进一步提升

f00755b4-0b3a-11ee-962d-dac502259ad0.jpg

一些相关工作,提完文本特征加一些噪声提高鲁棒性,消解图文 gap

f00f4878-0b3a-11ee-962d-dac502259ad0.jpg

f0482878-0b3a-11ee-962d-dac502259ad0.jpg

3d 样本较难,因为点云-文本对较少,很难获取

f0769c80-0b3a-11ee-962d-dac502259ad0.jpg

投影后的 3d 点云可以被视作 2d 图像处理,使用图像 encoder

f0a43da2-0b3a-11ee-962d-dac502259ad0.jpg

但投影点云依然与图像存在 gap,于是采取另一种思路

投影的确与图像相关,但依然有调整空间,所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐,图像和文本对齐,因此就可以实现零样本学习

f0aea9cc-0b3a-11ee-962d-dac502259ad0.jpg

如果有一些少量的有标签监督,相当于 few-shot,效果也相当好

全监督效果也很好

f0b7f07c-0b3a-11ee-962d-dac502259ad0.jpg

当时觉得图像可以做中介,那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起,重新训练

但大家依然可以做自己领域相关的方向,以图像作为中介对比,还有很大的空间

f0ede088-0b3a-11ee-962d-dac502259ad0.jpg

用想象的方式开展学习

f1137334-0b3a-11ee-962d-dac502259ad0.jpg

假设有一些类别,使用语言模型生成一些句子,再根据句子使用生成模型生成图像

因此有了图像和类别匹配对(弱监督目标检测

希望即使使用合成图像,模型在真实图像上也可以比较好

因为类别本身和图像会比较简单,但如果使用语言模型,比如猫变成趴着的猫,这样图像多样性会很高

f13ccebe-0b3a-11ee-962d-dac502259ad0.jpg

f146f9f2-0b3a-11ee-962d-dac502259ad0.jpg

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

f1534b76-0b3a-11ee-962d-dac502259ad0.jpg

f1744768-0b3a-11ee-962d-dac502259ad0.jpg

责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    496

    浏览量

    10234
  • 训练模型
    +关注

    关注

    1

    文章

    35

    浏览量

    3794

原文标题:VALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一文详解知识增强语言训练模型

    随着训练语言模型(PLMs)的不断发展,各种NLP任务设置上都取得了不俗的性能。尽管PLMs可以从大量语料库中学习一定的知识,但仍旧存在很
    的头像 发表于 04-02 17:21 9482次阅读

    【大语言模型:原理与工程实践】大语言模型训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的应用

    设计提示词时,需要明确输出需求,以便得到满意的结果。 推理引导如前文所述,提示工程对于训练语言模型的逐步推理能力至关重要。样本提示大
    发表于 05-07 17:21

    基于深度学习的自然语言处理对抗样本模型

    深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然
    发表于 04-20 14:36 39次下载
    基于深度<b class='flag-5'>学习</b>的自然<b class='flag-5'>语言</b>处理对抗<b class='flag-5'>样本</b><b class='flag-5'>模型</b>

    融合样本学习和小样本学习的弱监督学习方法综述

    融合样本学习和小样本学习的弱监督学习方法综述 来源:《系统工程与电子技术》,作者潘崇煜等 摘
    发表于 02-09 11:22 2189次阅读
    融合<b class='flag-5'>零</b><b class='flag-5'>样本</b><b class='flag-5'>学习</b>和小<b class='flag-5'>样本</b><b class='flag-5'>学习</b>的弱监督<b class='flag-5'>学习</b>方法综述

    如何更高效地使用训练语言模型

    基本的假设:训练模型在不同下游任务上学习的过程,可以被重新参数化(reparameterized)为在同一个低维征子空间上的优化过程。
    的头像 发表于 07-08 11:28 1213次阅读

    利用视觉语言模型对检测器进行训练

    训练通常被用于自然语言处理以及计算机视觉领域,以增强主干网络的特征提取能力,达到加速训练和提高
    的头像 发表于 08-08 15:33 1321次阅读

    训练语言模型的字典描述

    今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强训练语言模型
    的头像 发表于 08-11 10:37 1126次阅读

    如何充分挖掘训练视觉-语言基础大模型的更好样本学习能力

    因此,合适的prompt对于模型的效果至关重要。大量研究表明,prompt的微小差别,可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言
    的头像 发表于 10-19 14:39 1385次阅读

    使用BLIP-2 样本“图生文”

    现代计算机视觉和自然语言模型在能力越来越强大的同时,模型尺寸也随之显著增大。由于当前进行一次单模态模型
    的头像 发表于 03-03 11:06 1722次阅读

    训练数据大小对于训练模型的影响

    BERT类模型的工作模式简单,但取得的效果也是极佳的,其在各项任务上的良好表现主要得益于其在大量无监督文本上学习到的文本表征能力。那么如何从语言学的特征角度来衡量一个
    的头像 发表于 03-03 11:20 1319次阅读

    形状感知样本语义分割

    由于大规模视觉语言训练取得了令人瞩目的进展,最近的识别模型可以以惊人的高准确度对任意对象进行
    的头像 发表于 04-28 11:26 777次阅读
    形状感知<b class='flag-5'>零</b><b class='flag-5'>样本</b>语义分割

    什么是样本学习?为什么要搞样本学习

    样本分类的技术目前正处于高速发展时期, 所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。 对此, 本文将其称为广义
    发表于 09-22 11:10 2007次阅读
    什么是<b class='flag-5'>零</b><b class='flag-5'>样本</b><b class='flag-5'>学习</b>?为什么要搞<b class='flag-5'>零</b><b class='flag-5'>样本</b><b class='flag-5'>学习</b>?

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的一个重要概念,尤其是在自然
    的头像 发表于 07-03 18:20 1979次阅读

    语言模型训练

    能力,逐渐成为NLP领域的研究热点。大语言模型训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使
    的头像 发表于 07-11 10:11 349次阅读