0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何充分挖掘预训练视觉-语言基础大模型的更好零样本学习能力

jf_pmFSk4VX 来源:GiantPandaCV 作者:GiantPandaCV 2022-10-19 14:39 次阅读

融入了Prompt的新模式大致可以归纳成”pre-train, prompt, and predict“,在该模式中,下游任务被重新调整成类似预训练任务的形式。例如,通常的预训练任务有Masked Language Model, 在文本情感分类任务中,对于 "I love this movie." 这句输入,可以在后面加上prompt "The movie is ___" 这样的形式,然后让PLM用表示情感的答案填空如 "great"、"fantastic" 等等,最后再将该答案转化成情感分类的标签,这样以来,通过选取合适的prompt,我们可以控制模型预测输出,从而一个完全无监督训练的PLM可以被用来解决各种各样的下游任务。

因此,合适的prompt对于模型的效果至关重要。大量研究表明,prompt的微小差别,可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言形式的prompt探索等等。

而对于视觉领域的prompt,最近在视觉语言预训练方面的进展,如CLIP和ALIGN,prompt为开发视觉任务的基础模型提供了一个有前途的方向。这些基础模型在数百万个有噪声的图像-文本对上进行训练后编码了广泛的视觉概念,可以在不需要任务特定的训练数据的情况下以零目标的方式应用于下游任务。这可以通过适当设计的prompt提示实现。

以CLIP为例,如下图红色方框强调所示,可以完成对“class label”的拓展,使得模型具有较为丰富的视觉信息。然后,可以使用CLIP对图像进行分类,以度量它们与各种类描述的对齐程度。因此,设计这样的提示在以zero-shot方式将基础模型应用到下游任务中起着至关重要的作用。

3811eb96-4f00-11ed-a3b6-dac502259ad0.png

然而,这种手工制作的prompt需要特定于领域的灵感,因此可能较难设计,所以如何设计一种模式,可以让让模型自适应地学习到有关prompt的一些参数和设定是非常有必要的。与手工制作的prompt相比,这种方法可以找到更好的prompt,但学习到的prompt仅限于与训练数据对应的分布和任务,除此之外的泛化可能有限。

此外,这种方法需要带注释的训练数据,这可能非常昂贵,而且不能很好地应用于zero-shot的相关任务中。为了解决上述的挑战, 论文提出在测试阶段使用test-time prompt tuning(TPT),只使用给定的测试样本对prompt进行调整。由于避免了使用额外的训练数据或标注,TPT仍然遵守了zero-shot的设置。

3841c1d6-4f00-11ed-a3b6-dac502259ad0.png

. 方法

论文首先简单回顾了CLIP和基于CLIP的一些可学习参数的prompts获取方法。对于为何要优化prompt,论文是这样描述的:CLIP包含了丰富的知识,从前期的训练中获得了海量的知识和不同的数据感知能力。然而,如何更有效地提取这些知识仍然是一个开放的问题。一个简单的策略是直接对模型进行微调,无论是端到端的还是针对的一个子集层,对一类的输入。然而,先前的工作表明,这种微调策略导致特定于领域的行为失去了非分布泛化和鲁棒性的基础模型。

因此,这项工作的目标是利用现有的CLIP知识来促进其泛化到zero-shot的厂家中去。因此,调整prompt就是实现这一目标的理想途径。此外,我们将测试时提示调优视为为模型提供上下文的一种方法为单个测试样本量身定制,有助于精确检索CLIP知识。

论文的目的很简单,就是在测试阶段得不到测试样本ground-truth标注的时候,进行一定的训练,具体表现为

因为标签不能用于测试阶段的优化,所以我们如果想在测试阶段进行优化就必须选择用于能够提供一定hint的无监督损失函数来指导优化。因此,论文设计了TPT目标来促进采用不同数据增强下,模型的一致性。通过对给定测试相同图像的不同增强类型的特征,来依照他们预测的差值来进行训练。具体来说,我们使用一个随机增广cluster生成测试图像的N个随机augumention视图,最小化平均预测概率分布的熵:

这里 是根据物体不同prompt and the -th augmented view of the test image预测出的概率。

值得一提的是,为了减少随机增强的噪声(也就是说增强之后模型很难再预测出正确的分类信息,如删去了图像非常关键的content),本文还引入了一个新的机制:confidence selection,来选择过滤增强产生的低置信度预测的view。数学表达式体现为:

38736830-4f00-11ed-a3b6-dac502259ad0.png

实验

388b7efc-4f00-11ed-a3b6-dac502259ad0.png

首先论文根据CoOp 和 CoCoOp的混淆矩阵可视化来判断这两种可学习的prompt参数化方式在不同数据集上的迁移性很差,有增加参数量过拟合的嫌疑。所以其实在训练阶段,增加参数量来做相应的操作不见得合理。因此才更能体现本文这种基于测试阶段方法提出方法的优越性。

38b42046-4f00-11ed-a3b6-dac502259ad0.png

可以发现,本文提出的这种方法在不同数据集之间的迁移性非常之好。

结论

本文研究了如何充分挖掘预训练视觉-语言基础大模型的更好零样本学习能力。论文提出了Test-time Prompt Tuning, TPT),这种新的prompt调整方法,可以使用单个测试样本动态学习自适应提示。我们证明了该方法对自然分布变化的鲁棒性跨数据集泛化,使用CLIP作为基础模型。不需要任何训练数据或标注,TPT提高了CLIP的zero-shot的泛化能力。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2841

    浏览量

    48068
  • 数据集
    +关注

    关注

    4

    文章

    1187

    浏览量

    24469
  • Clip
    +关注

    关注

    0

    文章

    30

    浏览量

    6582
  • 自然语言
    +关注

    关注

    1

    文章

    272

    浏览量

    13239
  • 大模型
    +关注

    关注

    2

    文章

    1884

    浏览量

    1506

原文标题:面向测试阶段的prompt搜索方式

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【大语言模型:原理与工程实践】探索《大语言模型原理与工程实践》

    处理中训练架构Transformer,以及这些技术在现实世界中的如何应用。通过具体案例的分析,作者展示了大语言模型在解决实际问题中的强大能力
    发表于 04-30 15:35

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    Transformer架构,利用自注意力机制对文本进行编码,通过训练、有监督微调和强化学习等阶段,不断提升性能,展现出强大的语言理解和生成能力
    发表于 05-04 23:55

    【大语言模型:原理与工程实践】核心技术综述

    的复杂模式和长距离依赖关系。 训练策略: 训练是LLMs训练过程的第一阶段,模型在大量的
    发表于 05-05 10:56

    【大语言模型:原理与工程实践】大语言模型的基础技术

    就无法修改,因此难以灵活应用于下游文本的挖掘中。 词嵌入表示:将每个词映射为一个低维稠密的实值向量。不同的是,基于训练的词嵌入表示先在语料库中利用某种语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】大语言模型训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的应用

    设计提示词时,需要明确输出需求,以便得到满意的结果。 推理引导如前文所述,提示工程对于训练语言模型的逐步推理能力至关重要。
    发表于 05-07 17:21

    语言模型:原理与工程时间+小白初识大语言模型

    解锁 我理解的是基于深度学习,需要训练各种数据知识最后生成自己的的语言理解和能力的交互模型。 对于常说的RNN是处理短序列的数据时表现出色,
    发表于 05-12 23:57

    Pytorch模型训练实用PDF教程【中文】

    教程以实际应用、工程开发为目的,着重介绍模型训练过程中遇到的实际问题和方法。在机器学习模型开发中,主要涉及三大部分,分别是数据、
    发表于 12-21 09:18

    labview实现深度学习,还在用python?

    传统的视觉算法受打光以及图像的边缘对比度影响,无法做到人眼的分辨效果,而且人具有学习能力,经过大量样本学习,人就可以找到不同物体之间的细微
    发表于 07-23 20:33

    基于深度学习的自然语言处理对抗样本模型

    深度学习模型被证明存在脆弱性并容易遭到对抗样本的攻击,但目前对于对抗样本的研究主要集中在计算机视觉领域而忽略了自然
    发表于 04-20 14:36 39次下载
    基于深度<b class='flag-5'>学习</b>的自然<b class='flag-5'>语言</b>处理对抗<b class='flag-5'>样本</b><b class='flag-5'>模型</b>

    机器学习训练样本数据选择方法综述

    机器学习作为数据挖掘中一种重要的工具,不只是对人的认知学习过程的探索,还包括对数据的分析处理。面对大量数据的挑战,目前一部分学者专注于机器学习算法的改进和开拓,另一部分研究人员则致力于
    发表于 04-26 14:45 8次下载
    机器<b class='flag-5'>学习</b>的<b class='flag-5'>训练样本</b>数据选择方法综述

    样本量极少可以训练机器学习模型吗?

    本文首先介绍了用小样本训练模型会导致的问题,再介绍了Few-Shot Learning的基本原理即三大思路下的方法。
    的头像 发表于 06-23 15:02 6544次阅读

    利用视觉语言模型对检测器进行预训练

    训练通常被用于自然语言处理以及计算机视觉领域,以增强主干网络的特征提取能力,达到加速训练和提高模型
    的头像 发表于 08-08 15:33 1134次阅读

    多维度剖析视觉-语言训练的技术路线

    视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予 AI 系统从多模态数据中
    的头像 发表于 02-23 11:15 747次阅读

    基于预训练模型语言增强的零样本视觉学习

    在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升 怎么让能力
    的头像 发表于 06-15 16:36 371次阅读
    基于预<b class='flag-5'>训练</b><b class='flag-5'>模型</b>和<b class='flag-5'>语言</b>增强的零<b class='flag-5'>样本</b><b class='flag-5'>视觉</b><b class='flag-5'>学习</b>