基于预训练模型和语言增强的零样本视觉学习-电子发烧友网

在一些非自然图像中要比传统模型表现更好

CoOp 增加一些 prompt 会让模型能力进一步提升

怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

训练的时候使用文本组成的句子

对齐总会有 gap，选 loss 的时候使用 rank loss，对模态 gap 更稳定

拿到文本后有几种选择，比如 Coco 只要其中的 caption 不要图像，或是 Google 搜句子，抑或是语言模型生成

最后选择第一种，因为稳定性和效果更好，能够保证同样数据集（同分布？）

可以建一个同义词表

两种 prompt，global 关注句子里有没有猫，local 关心这个词是不是跟猫有关系

测试的时候就将句子变成图像，global 不变，local 变成了跟图像里的 token 做比较

如果再加上少量文本（大量句子和少量文本）性能会进一步提升

一些相关工作，提完文本特征加一些噪声提高鲁棒性，消解图文 gap

3d 样本较难，因为点云-文本对较少，很难获取

投影后的 3d 点云可以被视作 2d 图像处理，使用图像 encoder

但投影点云依然与图像存在 gap，于是采取另一种思路

投影的确与图像相关，但依然有调整空间，所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐，图像和文本对齐，因此就可以实现零样本学习

如果有一些少量的有标签监督，相当于 few-shot，效果也相当好

全监督效果也很好

当时觉得图像可以做中介，那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起，重新训练

但大家依然可以做自己领域相关的方向，以图像作为中介对比，还有很大的空间

用想象的方式开展学习

假设有一些类别，使用语言模型生成一些句子，再根据句子使用生成模型生成图像

因此有了图像和类别匹配对（弱监督目标检测）

希望即使使用合成图像，模型在真实图像上也可以比较好

因为类别本身和图像会比较简单，但如果使用语言模型，比如猫变成趴着的猫，这样图像多样性会很高

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

责任编辑：彭菁

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
532

浏览量
10300
训练模型

训练模型

+关注

关注
1

文章
36

浏览量
3872

原文标题：VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

一文详解知识增强的语言预训练模型

随着预训练语言模型(PLMs)的不断发展，各种NLP任务设置上都取得了不俗的性能。尽管PLMs可以从大量语料库中学习一定的知识，但仍旧存在很

发表于 04-02 17:21 •9670次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的应用

设计提示词时，需要明确输出需求，以便得到满意的结果。推理引导如前文所述，提示工程对于训练大语言模型的逐步推理能力至关重要。零样本提示大

发表于 05-07 17:21

基于深度学习的自然语言处理对抗样本模型

深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击，但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然

发表于 04-20 14:36 •39次下载

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述来源：《系统工程与电子技术》，作者潘崇煜等摘

发表于 02-09 11:22 •2346次阅读

如何更高效地使用预训练语言模型

基本的假设:预训练模型在不同下游任务上学习的过程，可以被重新参数化（reparameterized）为在同一个低维本征子空间上的优化过程。

发表于 07-08 11:28 •1290次阅读

利用视觉语言模型对检测器进行预训练

预训练通常被用于自然语言处理以及计算机视觉领域，以增强主干网络的特征提取能力，达到加速训练和提高

发表于 08-08 15:33 •1424次阅读

预训练语言模型的字典描述

今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型

发表于 08-11 10:37 •1187次阅读

如何充分挖掘预训练视觉-语言基础大模型的更好零样本学习能力

因此，合适的prompt对于模型的效果至关重要。大量研究表明，prompt的微小差别，可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言

发表于 10-19 14:39 •1483次阅读

使用BLIP-2 零样本“图生文”

现代计算机视觉和自然语言模型在能力越来越强大的同时，模型尺寸也随之显著增大。由于当前进行一次单模态模型的

发表于 03-03 11:06 •1866次阅读

预训练数据大小对于预训练模型的影响

BERT类模型的工作模式简单，但取得的效果也是极佳的，其在各项任务上的良好表现主要得益于其在大量无监督文本上学习到的文本表征能力。那么如何从语言学的特征角度来衡量一个预

发表于 03-03 11:20 •1474次阅读

形状感知零样本语义分割

由于大规模视觉语言预训练取得了令人瞩目的进展，最近的识别模型可以以惊人的高准确度对任意对象进行零

发表于 04-28 11:26 •834次阅读

什么是零样本学习？为什么要搞零样本学习？

零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。对此，本文将其称为广义

发表于 09-22 11:10 •2266次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语

发表于 07-03 18:20 •2981次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •465次阅读