0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务

CVer 来源:CVer 2023-10-10 17:10 次阅读

0. 基本信息

10ae01a4-6744-11ee-939d-92fbcf53809c.png

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions. InNeurIPS 2023.

论文:arxiv.org/pdf/2309.03576

代码:github.com/Haochen-Wang409/DropPos

今天介绍我们在自监督视觉预训练领域的一篇原创工作DropPos:Pre-Training Vision Transformers by Reconstructing Dropped Positions.

目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。

1. TL;DR

我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings (PE),然后利用简单的 cross-entropy loss 训练模型,让模型重建那些无 PE token 的位置信息。这个及其简单的代理任务就能在多种下游任务上取得有竞争力的性能。

2. Motivation

在 MoCo v3 的论文中有一个很有趣的现象:ViT 带与不带 position embedding,在 ImageNet 上的分类精度相差无几。

10bdc256-6744-11ee-939d-92fbcf53809c.jpg

表 1. MoCo v3 中的实验现象 (原文第 6 页)

这一实验结果背后,隐含着「ViT 的建模主要关注于不同 patch 的 visual appearence,对于 position 的 awareness 较差」这一信息。即,如果把图片切 patch 然后再随机打乱之后,ViT 能够在乱序的情况下准确识别该图片的类别。这一点和人类直觉有很大出入。同时,有可能是因为 ViT 过拟合到了 ImageNet 这个特定数据集导致的。

基于此,我们首先做了一些 tiny experiments,探究 position awareness 与模型的识别准确率到底是否有正相关的关系。具体来说,我们冻结了 MoCo v3 和 MAE 的 pre-train/fine-tune 权重,在其后接一个全连接层,并用 position classification 这个任务做 linear probing。即,在 forward 过程中随机丢弃 75% 的 PE,并把 ViT 的 feature 映射到 196 维 (一张图有 14x14 个 patch),期望让最终的线性层正确分类该 patch 的位置。

10ca0818-6744-11ee-939d-92fbcf53809c.jpg

表 2. Position awareness 对于下游任务的影响

表中结果表明,fine-tune 后的模型权重,更适合预测位置这一任务。说明「强大的对位置的建模能力,对于图像分类任务是有益的」。基于此,我们想探究一种能够提升 ViT 对于位置建模能力的全新自监督代理任务。

一种可行的方案是「简单地把 ViT 的 PE 随机丢弃一部分,然后让模型预测这些不带 PE 的 token 的精确位置」,即 reconstructDroppedPositions (DropPos).

10d20ca2-6744-11ee-939d-92fbcf53809c.jpg

图 1. DropPos 与 CL 和 MIM 的对比

DropPos 有如下的优势:

对比 CL,DropPos 不需要精心设计的数据增强 (例如 multi-crop)。

对比 MIM,DropPos 不需要精心设计的掩码策略和重建目标。

下面我们介绍 DropPos 的具体运行流程

3. Method

10e2d7f8-6744-11ee-939d-92fbcf53809c.jpg

图 2. DropPos 的流程图

即使 DropPos 的想法很直观也很简单,但这类方法一直没有成为预训练的主流,主要是由于在设计上有以下三个难点:

如果简单地把所有 PE 丢弃,让模型直接重建每个 patch 的位置,会导致上下游的 discrepency。因为下游任务需要 PE,而上游预训练的模型又完全没见过 PE。

ViT 对于 long-range 的建模能力很强,这个简单的位置重建任务可能没办法让模型学到非常 high-level 的语义特征。

看上去相似的不同 patch (例如纯色的背景) 的位置无需被精准重建,因此决定哪些 patch 的位置需要被重建非常关键。

针对上述难点,我们提出了三个解决手段:

针对问题一,我们采用了一个简单的随机丢弃策略。每次训练过程中丢弃 75% 的 PE,保留 25% 的 PE。

针对问题二,我们采取了高比例的 patch mask,既能提高代理任务的难度,又能加快训练的速度。

针对问题三,我们提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向过程

10ef9da8-6744-11ee-939d-92fbcf53809c.jpg

算法 1. DropPos 的前向过程

DropPos 的前向过程包括两段 mask,分别是第一步 patch mask (类似 MAE),和第二步的 position mask (用可学习的 position mask 代替 dropped positions)。具体可以参见上方的伪代码。

3.2 Objective

我们使用了一个最简单的 cross-entropy loss 作为预训练的目标函数:

10f9e25e-6744-11ee-939d-92fbcf53809c.png

其中,o 是模型的输出,即第 i 个 patch 的预测位置是 j 的 logit,y 是真实的位置信息。

gamma 是第一步的 patch mask ratio,N 为总 patch 数量。

Mpose是 0-1 的 position mask,1 表示该 patch 带有 PE,不应当被重建,而 0 表示该 patch 不带 PE,需要被重建。

我们接下来引入 position smoothing 和 attentive reconstruction 技术来松弛这个问题,以解决相似但不同 patch 的位置重建问题。

3.2.1 Position Smoothing

我们采用一个高斯核来平滑原本的 position targets

110e130a-6744-11ee-939d-92fbcf53809c.jpg

111ad432-6744-11ee-939d-92fbcf53809c.png

此处,w(i, j) 表示当真实位置为 i,而预测位置为 j 时,平滑后的 position target。

此外,我们还让 sigma 自大变小,让模型一开始不要过分关注精确的位置重建,而训练后期则越来越关注于精准的位置重建。

3.2.2 Attentive Reconstruction

我们采用 [CLS] token 和其他 patch 的相似度作为亲和力矩阵,作为目标函数的额外权重。

112e53a4-6744-11ee-939d-92fbcf53809c.png

113e4b10-6744-11ee-939d-92fbcf53809c.jpg

其中 f 为不同 token 的特征,tau 为超参数,控制了 affinity 的平滑程度。

4. Experiments

4.1 与其他方法的对比

1149b4fa-6744-11ee-939d-92fbcf53809c.jpg

1154b030-6744-11ee-939d-92fbcf53809c.jpg

4.2 消融实验

本文主要有四个超参:patch mask ratio (gamma),position mask ratio (gamma_pos),sigma,和 tau。

116821d8-6744-11ee-939d-92fbcf53809c.jpg

11738f0a-6744-11ee-939d-92fbcf53809c.jpg

由表,我们可以得出一些比较有趣的结论:

一般来说,更高的 position 重建精度会带来更高的下游任务性能。

上述结论存在例外:当 sigma = 0 时,即不做位置平滑时,位置预测精度高,而下游任务表现反而低;当 tau = inf 时,即不做 attentive reconstruction 时,位置预测精度高,而下游表现反而低。

因此,过分关注于预测每一个 patch 的精确的位置,会导致局部最优,对于下游任务不利。

11781624-6744-11ee-939d-92fbcf53809c.jpg

上图是 DropPos 位置重建的可视化结果,黑色 patch 代表的是前向过程中被 mask 掉的 patch;白色 patch 的位置被错误重建,而剩余 patch 的位置被精准重建。

DropPos 在极端情况 (例如 gamma=0.75) 时,依然可以做到大部分 patch 的精准重建。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3238

    浏览量

    48824
  • 视觉
    +关注

    关注

    1

    文章

    147

    浏览量

    23940
  • 旷视
    +关注

    关注

    0

    文章

    76

    浏览量

    6569

原文标题:NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中科院电子技术考研真题

    中科院电子技术考研真题
    发表于 08-07 15:04

    中科院剖析 LED怎样克服困难 

      中科院剖析 LED怎样克服困难  LED灯具在人们的生活当中也是很常见的,它具有节能,高效,寿命长的优点,是电源行业的一个转折点,具有革命性的意义。  这是一个看似前途无量的巨大市场,然而像
    发表于 07-18 11:31

    0055《最优控制理论(中科院)》科学出版社-2003.pdf(4M)

    1000本电子专业书籍免费大放送https://bbs.elecfans.com/forum.php?mod=viewthread&tid=287358&fromuid=286650055《最优控制理论(中科院
    发表于 01-14 16:19

    中科院深耕网络摄像机领域

    。据悉,手立Q系近日即将登陆京东众筹。 中科院聚焦网络摄像机领域 为打造符合消费与技术发展规律的全新一代网络摄像机,中科院在对国内外智能摄像机产品进行分析后,又深入了解智能家居等领域
    发表于 02-05 10:09

    中科院清库房-20V600A稳流电源

    ``如题 中科院清库房的设备 另有其他一些电子元器件。有想拿去玩玩的加微信qixiong225 论坛不常上 咸鱼链接https://2.taobao.com/item.htm?id=526428926106&
    发表于 02-17 16:14

    中科院3D打印机CEST400|国产工业级3D打印机

    `中科院3D打印机CEST400|国产工业级3D打印机中科院广州电子采用全球领先的3D打印技术和设备,2001年改制以来,依托国有科研机构技术底蕴,稳定的技术队伍,专注主研方向和产品,在高等教育
    发表于 08-10 17:27

    中科院半导体所成功研制视觉芯片

    在国家自然科学基金委、科技部和中科院的支持下,中科院半导体所吴南健研究员、张万成和付秋喻等成功研制出新型视觉芯片。
    发表于 09-15 09:22 1338次阅读

    中科院_遥感课件及资料2

    中科院_遥感课件及资料2。
    发表于 05-05 11:37 9次下载

    中科院_遥感课件及资料3

    中科院_遥感课件及资料3。
    发表于 05-05 11:37 19次下载

    中科院WSN讲义 时间同步

    中科院WSN讲义 时间同步
    发表于 10-24 09:10 12次下载
    <b class='flag-5'>中科院</b>WSN讲义 时间同步

    微软在ICML 2019上提出了一个全新的通用训练方法MASS

    专门针对序列到序列的自然语言生成任务,微软亚洲研究提出了新的训练方法:屏蔽序列到序列
    的头像 发表于 05-11 09:19 3491次阅读
    微软在ICML 2019上<b class='flag-5'>提出</b>了一个<b class='flag-5'>全新</b>的通用<b class='flag-5'>预</b><b class='flag-5'>训练</b>方法MASS

    基于Transformer架构的文档图像监督训练技术

    是2022年微软亚研发表的LayoutLM V3[2]的前身工作,主要解决了文档领域中标注数据稀少和以视觉为中心的文档智能任务骨干网络的训练
    的头像 发表于 11-15 11:32 1455次阅读

    复旦&amp;amp;微软提出​OmniVL:首个统一图像、视频、文本的基础训练模型

    根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本训练和视频-文本训练。前者从图像-文本对中学习
    的头像 发表于 12-14 15:26 918次阅读

    基础模型监督训练的数据之谜:大量数据究竟是福还是祸?

    大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力,这也推动了基于大量数据的视觉模型研究。在计算视觉领域,标注数据通常难以获取,监督学习成为
    的头像 发表于 07-24 16:55 559次阅读
    基础模型<b class='flag-5'>自</b><b class='flag-5'>监督</b><b class='flag-5'>预</b><b class='flag-5'>训练</b>的数据之谜:大量数据究竟是福还是祸?

    NeurIPS 2023 | 全新监督视觉训练代理任务DropPos

    工作, 目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。 TL;DR 我们提出了一种全新
    的头像 发表于 10-15 20:25 527次阅读
    NeurIPS 2023 | <b class='flag-5'>全新</b>的<b class='flag-5'>自</b><b class='flag-5'>监督</b><b class='flag-5'>视觉</b><b class='flag-5'>预</b><b class='flag-5'>训练</b><b class='flag-5'>代理</b><b class='flag-5'>任务</b>:<b class='flag-5'>DropPos</b>