0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浅析MAK基于开放世界取样提升不平衡对比学习

jf_pmFSk4VX 来源:GiantPandaCV 作者:Garfield 2022-12-02 09:46 次阅读

3. 引言

众所周知,对比学习现在已经成功地在无监督任务中成功应用,通过学习到泛化能力较强的visual representations。然而,如果要使用大量未标记数据进行预训练训练却显得有些奢侈。由于是进行无监督的对比学习,需要很长的时间收敛,所以对比学习比传统的全监督学习需要更大的模型和更长时间的训练。随着数据量的增加,它也需要更多的计算资源。而计算资源有限的条件下,wild unbalanced distribution的数据很可能会抑制对相关特征的学习。

采样的外部未标注数据通常呈现隐式长尾分布(因为真实世界的场景中,数据就呈现长尾分布,从真实世界中收集数据显然也会服从长尾分布),加入学习的样本很可能跟原始任务没任何关联,这些噪声就会比较大程度地影响表征的学习和收敛。本文就旨在设计一种算法来解决上述情景带来的问题。

论文的问题设定还是比较特别的,首先具体介绍一下:假设我们从一个相对较小的(“种子”)未标记的训练数据集开始,其中数据分布可能高度biased,但未指定相应的分布。我们的目标是在给定的采样样本限制下,从一些外源数据检索额外信息,以增强针对目标分布(种子集)的自监督representation learning。

通过对检索到的unlabeled samples进行训练,本文的目标是学习“stronger and fairer”的representation。

我们可能从一个bias的sample set开始训练,由于不知道相应的标注,传统用来处理不平衡数据集的方法,如伪标签、重采样或重加权不适用。

采用预训练的backbone训练不平衡的seed data。

在缺乏label信息的情况下,探索open world中广泛存在的irrelevant outlier samples检测

因此,我们的目标是寻求一个有原则的开放世界无标签数据采样策略。论文的出发点非常好概括,就是保证三个采样的原则其核心:

tailness:保证采样的样本频率尽可能是原任务中的长尾数据,保证采样规则尽可能服从原有的分布;

proximity:保证采样的样本尽可能是原任务是相关的,过滤掉分布之外的样本,解决OOD问题。

diversity:让采样的数据类型更加丰富,体现一定的差异性,这样能比较好的提升泛化性和鲁棒性。

3. 方法

c3a19244-717c-11ed-8abf-dac502259ad0.png

如上图,论文的方法其实很清晰,是分多阶段的。首先定义一个原始的训练集,以图中情景为例,在原始数据中,狗属于Head class,豹属于Tail class,所以在采样时不考虑狗的样本,保证tailness;接着排除掉跟原始数据高度相似的样本,保证diversity;最后删掉跟识别中出现的unrelated的样本,使得采样具有proximity。

3.1 Tailness

初步:在对比学习中,通过强制一个样本v与另一个正样本相似而与负样本不同来学习representation。在各种流行的对比学习框架中,SimCLR是最简单容易实现,也可以产生较好的表现。它利用相同数据的两个增强的image作为正对,而同一批中的所有其他增强样本被视为负样本。SimCLR的形式是:

c3d47e70-717c-11ed-8abf-dac502259ad0.png

下面来分析下上述的loss function。其实作者主要的目的就是完成对tail classes的特殊处理。而怎么完成呢?其实作者就定义在对比学习框架下hard examples(难样本)可以视为tail的样本。虽然没有更多理论上的支撑,但某种程度上来讲,也是很好理解的,因为在不平衡的数据集上,尾部类别更难分类,所以说有更高的误分率。而对于hard samples,论文直接把contrastive loss最大的样本作为hard sample。

c3e68eb2-717c-11ed-8abf-dac502259ad0.png

但由于对比损失受数据增强方式的影响,而通常增强方式都是采用随机性,造成噪声过大。因此作者引入了empirical contrastive loss expectation,也就是基于期望来计算SimCLR,从而来来判断hard samples。

3.2 Proximity

c3fdeea4-717c-11ed-8abf-dac502259ad0.png

很直观,这个loss就在拉近原始数据集和外部采样数据集特征之间的期望,期望越小,表示未标注的open set和原任务越相关。

3.3 Diversity

c40af5b8-717c-11ed-8abf-dac502259ad0.png

为了追求采样的多样性,利用上述策略避免采样的样本跟原始样本过于相似。

最后的loss如下所示:

c42028b6-717c-11ed-8abf-dac502259ad0.png

算法概括如下:

c441c8f4-717c-11ed-8abf-dac502259ad0.png

4. 实验

实验采用ImageNet-LT作为数据集:

c4629ce6-717c-11ed-8abf-dac502259ad0.png

可以大发现,在原始数据集上通过对外部数据集采样进行提升,可以有效地改进模型处理open world中长尾效应的性能。

c4758644-717c-11ed-8abf-dac502259ad0.png

笑容实验来看,其实Tailness和Proximity比较重要,而多样性这种约束提升有限。个人觉得主要的原因还是,实际上还是在利用有限的close set来辅助训练,模型本身的diversity也没有很丰富,所以加入这个优化目标作用有限。

c48947b0-717c-11ed-8abf-dac502259ad0.png

利用t_SNE可视化的效果如上图所示。

5. 结论

开放世界的样本数据往往呈现长尾分布,进一步破坏了对比学习的平衡性。论文通过提出一个统一的采样框架MAK来解决这个重要的问题。它通过抽样额外的数据显著地提高了对比学习的平衡性和准确性。论文提出的方法有助于在实际应用中提高长尾数据的平衡性。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Mak
    Mak
    +关注

    关注

    0

    文章

    2

    浏览量

    7145

原文标题:MAK 基于开放世界取样提升不平衡对比学习

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何理解矢量测量中“平衡”与“不平衡

    在矢量测试中,经常需要测量信号的不平衡性,会遇到相关的几个名词:Balance(平衡),Unbalance(不平衡/非平衡)和Imbalance(
    发表于 03-29 10:51 2735次阅读
    如何理解矢量测量中“<b class='flag-5'>平衡</b>”与“<b class='flag-5'>不平衡</b>

    三相不平衡治理装置的应用优势

    电力电气行业的“新宠儿”。三相不平衡未来需求将爆发增涨三相不平衡治理需求是当前电能质量提升比较大的市场,很多企业看到了这个市场,面对这个机会,原有产品却无法满足相应需求,大批企业通过引入三相
    发表于 02-18 13:06

    对地不平衡测试电路

    对地不平衡测试电路
    发表于 03-04 20:40 883次阅读
    对地<b class='flag-5'>不平衡</b>测试电路

    不平衡型AFC电路

    不平衡型AFC电路 如图不平衡型AFC电路,它由鉴相器,比较锯齿波形成电路,
    发表于 08-05 23:52 1688次阅读
    <b class='flag-5'>不平衡</b>型AFC电路

    简易平衡不平衡变换器

    简易平衡不平衡变换器 可用废弃
    发表于 09-07 16:48 1940次阅读
    简易<b class='flag-5'>平衡</b><b class='flag-5'>不平衡</b>变换器

    模拟信号平衡输入/不平衡输出电路

    模拟信号平衡输入/不平衡输出电路
    发表于 10-11 10:43 5847次阅读
    模拟信号<b class='flag-5'>平衡</b>输入/<b class='flag-5'>不平衡</b>输出电路

    基于主动学习不平衡多分类AdaBoost改进算法

    针对不平衡分类中小类样本识别率低问题,提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先,利用主动学习方法通过多次迭代抽样,选取少量的、对分类器最有价值的样本作为训练集;然
    发表于 11-30 17:12 3次下载

    三相电压不平衡产生原因_三相电压不平衡的治理措施

    电力系统中三相电压不平衡产生的主要原因是负荷的不平衡和系统阻抗的不平衡。其中负荷的不平衡是造成三相电压不平衡的主要原因,比较明显的单相负荷由
    的头像 发表于 10-28 16:43 2.5w次阅读

    电机转子不平衡对电机质量的影响大吗

    转子不平衡对电机质量的影响有哪些?小编将分析转子机械不平衡产生的振动和噪声问题。
    发表于 08-30 10:51 808次阅读

    三相不平衡是什么意思?三相电压不平衡怎么处理?

    三相不平衡是什么意思?三相电压不平衡怎么处理?  三相不平衡是指三相电压或电流的幅度或相位不同,这会导致电力系统的不稳定、效率低下、设备寿命短等问题。在三相电力系统中,三相电压应该相等且相位差为
    的头像 发表于 09-25 17:36 3755次阅读

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?

    三相电压不平衡是什么原因造成的?三相不平衡会跳闸吗?三相不平衡度允许范围  三相电压不平衡是指三相电源电压之间的差异,通常是由电源系统出现故障或不良设计引起的。
    的头像 发表于 09-25 17:36 6871次阅读

    I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢?

    I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢? I/Q不平衡是指在I(即“In-phase”)和Q(即“Quadrature-phase”)信道的输出之间存在不平衡的状态。
    的头像 发表于 10-31 09:34 1074次阅读

    三相电压不平衡对电路的影响

    三相电压不平衡对电路的影响 三相电压不平衡是指三相电网中三个相电压的幅值和相位不一致,造成电压波形不对称的情况。常见的三相电压不平衡情况包括电压幅值不平衡、相位
    的头像 发表于 12-11 17:16 2409次阅读

    三相不平衡最佳解决办法 三相不平衡多少范围内是合理的

    三相不平衡最佳解决办法 在电力系统中,三相不平衡是指三个相之间电压或电流不相等的现象。当三相不平衡的情况发生时,可能会导致线路过载、设备寿命缩短、电能损耗增加等问题。因此,解决三相不平衡
    的头像 发表于 02-06 10:07 2949次阅读

    三相不平衡调节装置 三相不平衡会造成什么后果

    三相不平衡调节装置是一种用于解决三相电力系统中三相电压或电流不平衡问题的设备。在本文中,我们将探讨三相不平衡的原因、后果和解决方案,并详细介绍三相不平衡调节装置的工作原理和应用。 引言
    的头像 发表于 02-06 10:14 1753次阅读