
论文链接:
https://openreview.net/forum?id=j8IiQUM33s
此外,团队还提出了一种名为混合自编码器 (MixedAE) 的简单而有效的方法,将图像混合应用于 MAE 数据增强。MixedAE 在各种下游任务(包括图像分类、语义分割和目标检测)上实现了最先进的迁移性能,同时保持了显著的效率。这是第一个从任务设计的角度将图像混合作为有效数据增强策略应用于基于纯自编码器结构的 Masked Image Modeling (MIM) 的研究。该工作已被 CVPR 2023 会议接收。
论文链接:
https://arxiv.org/abs/2303.17152
研究背景
在机器学习领域,预训练模型已经成为一种流行的方法,可以提高各种下游任务的性能。然而,研究发现,自监督预训练存在的负迁移现象。诺亚 AI 基础理论团队的前期工作 SDR (AAAI 2022) [1] 首次指出自监督预训练的负迁移问题,并提供初步解决方案。具体来说,负迁移是指在预训练过程中使用的数据与下游任务的数据分布不同,导致预训练模型在下游任务上的性能下降。在自监督学习中,模型在无标签数据上进行预训练,学习数据的潜在特征和表示。然而,当预训练数据与下游任务的数据分布存在显著差异时,模型可能学到与下游任务无关或甚至有害的特征。

▲图一:我们用ImageNet的两个子集,Split-A和Split-B,训练两个MAE模型,和全量数据集训练的模型相比较,后者仅在2个数据集上达到了最优。这说明,增大数据量并不总是带来更强的迁移效果。
以目前较为流行的自监督学习算法 MAE 为例,我们评估了使用不同语义数据进行预训练的 MAE 模型在迁移性能上的表现。我们将 ImageNet 数据集分为两个不相交的子集 Split-A 和 Split-B,根据 WordNet 树中标签的语义差异进行划分。Split-A 主要包含无生命物体(如汽车和飞机),而 Split-B 则主要涉及有机体(如植物和动物)。接着,我们在 Split-A、Split-B 和完整的 ImageNet 数据集上分别进行了 MAE 预训练,并在 11 个下游任务上评估了这三个模型的性能。如图一所示,在仅含 2 个语义丰富数据集(Caltech,VOC)的情况下,基于完整 ImageNet 训练的 MAE 获得了最佳的迁移效果;在非生物下游数据集 (Aircraft,Cars,SUN,DTD) 上,Split-A 的表现更佳;而在包含 Flowers,Food,Pets,CIFAR10,CIFAR100 等数据集上,Split-B 的表现更优。这表明,当下游任务与预训练数据分布不同时,与任务无关的预训练信息可能导致负迁移,从而限制了 MAE 模型的可扩展性。换言之,若一个 MAE 模型的预训练数据去除了与下游任务数据集相似度较低的部分,则其性能可能优于包含这些无关数据的预训练模型。这突显了开发针对特定下游任务的定制化预训练方法以避免负迁移现象的重要性。2. 自监督数据增强难题在自监督预训练中,与依赖数据增强的对比学习不同,我们发现传统数据增强手段可能会削弱 MAE 的模型性能。以图像混合增强(Image Mixing)为例,设随机变量 X1 和 X2 表示两个输入图像,M 表示随机生成的掩码,我们可以证明混合输入 σmix({X1,X2},M) 与重构目标 X1 之间的互信息 (MI) 不小于 MAE 输入 σmae(X1,M) 与 X1 之间的互信息(详见论文附录)。




实验分析
1. MoCE我们在之前提到的 11 个下游分类数据集和检测分割任务上做了实验。实验结果表明,MoCE 在多个下游任务中的性能超过了传统的 MAE 预训练方法。具体而言,在图像分类任务中,MoCE 相较于 MAE 实现了更高的准确率。在目标检测和分割任务中,MoCE 也取得了更好的表现,包括更高的 mIoU 和 AP 指标。这些实验结果表明,MoCE 通过利用相似语义图像进行聚类并为每个专家进行任务定制的自监督预训练,能够在各种下游任务中提高迁移性能。

在 14 个下游视觉任务(包括图像分类、语义分割和物体检测)的评估中,MixedAE 展现了最优的迁移性能和卓越的计算效率。相较于 iBOT,MixedAE 实现了约 2 倍预训练加速。得益于图像混合所带来的物体感知预训练,MixedAE 在下游密集预测任务上取得更显著的性能提升。注意力图可视化结果表明,MixedAE 能比 MAE 更准确完整地识别图像前景物体,从而实现优异的密集预测迁移性能。

▲图二:注意力图可视化。得益于ImageNet的单实例假设[2]以及物体感知的自监督预训练,MixedAE可以更准确完整地发现图像前景物体,从而实现更好的密集预测迁移性能。


参考文献

[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.
[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.
·
-
物联网
+关注
关注
2920文章
45484浏览量
382676
原文标题:基础模型自监督预训练的数据之谜:大量数据究竟是福还是祸?
文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
用PaddleNLP为GPT-2模型制作FineWeb二进制预训练数据集

室内导航究竟是如何实现的
ADS1298R PACE_OUT1和PACE_OUT2这两条引腿究竟是输入还是输出?有什么用?怎样使用?
PCM1861 INT脚究竟是输出还是输入?
AI大模型的训练数据来源分析
直播预约 |数据智能系列讲座第4期:预训练的基础模型下的持续学习

评论