浅析MAK基于开放世界取样提升不平衡对比学习-电子发烧友网

3. 引言

众所周知，对比学习现在已经成功地在无监督任务中成功应用，通过学习到泛化能力较强的visual representations。然而，如果要使用大量未标记数据进行预训练训练却显得有些奢侈。由于是进行无监督的对比学习，需要很长的时间收敛，所以对比学习比传统的全监督学习需要更大的模型和更长时间的训练。随着数据量的增加，它也需要更多的计算资源。而计算资源有限的条件下，wild unbalanced distribution的数据很可能会抑制对相关特征的学习。

采样的外部未标注数据通常呈现隐式长尾分布（因为真实世界的场景中，数据就呈现长尾分布，从真实世界中收集数据显然也会服从长尾分布），加入学习的样本很可能跟原始任务没任何关联，这些噪声就会比较大程度地影响表征的学习和收敛。本文就旨在设计一种算法来解决上述情景带来的问题。

论文的问题设定还是比较特别的，首先具体介绍一下：假设我们从一个相对较小的(“种子”)未标记的训练数据集开始，其中数据分布可能高度biased，但未指定相应的分布。我们的目标是在给定的采样样本限制下，从一些外源数据检索额外信息，以增强针对目标分布(种子集)的自监督representation learning。

通过对检索到的unlabeled samples进行训练，本文的目标是学习“stronger and fairer”的representation。

我们可能从一个bias的sample set开始训练，由于不知道相应的标注，传统用来处理不平衡数据集的方法，如伪标签、重采样或重加权不适用。

采用预训练的backbone训练不平衡的seed data。

在缺乏label信息的情况下，探索open world中广泛存在的irrelevant outlier samples检测。

因此，我们的目标是寻求一个有原则的开放世界无标签数据采样策略。论文的出发点非常好概括，就是保证三个采样的原则其核心：

tailness：保证采样的样本频率尽可能是原任务中的长尾数据，保证采样规则尽可能服从原有的分布；

proximity：保证采样的样本尽可能是原任务是相关的，过滤掉分布之外的样本，解决OOD问题。

diversity：让采样的数据类型更加丰富，体现一定的差异性，这样能比较好的提升泛化性和鲁棒性。

3. 方法

如上图，论文的方法其实很清晰，是分多阶段的。首先定义一个原始的训练集，以图中情景为例，在原始数据中，狗属于Head class，豹属于Tail class，所以在采样时不考虑狗的样本，保证tailness；接着排除掉跟原始数据高度相似的样本，保证diversity；最后删掉跟识别中出现的unrelated的样本，使得采样具有proximity。

3.1 Tailness

初步:在对比学习中，通过强制一个样本v与另一个正样本相似而与负样本不同来学习representation。在各种流行的对比学习框架中，SimCLR是最简单容易实现，也可以产生较好的表现。它利用相同数据的两个增强的image作为正对，而同一批中的所有其他增强样本被视为负样本。SimCLR的形式是：

下面来分析下上述的loss function。其实作者主要的目的就是完成对tail classes的特殊处理。而怎么完成呢？其实作者就定义在对比学习框架下hard examples(难样本)可以视为tail的样本。虽然没有更多理论上的支撑，但某种程度上来讲，也是很好理解的，因为在不平衡的数据集上，尾部类别更难分类，所以说有更高的误分率。而对于hard samples，论文直接把contrastive loss最大的样本作为hard sample。

但由于对比损失受数据增强方式的影响，而通常增强方式都是采用随机性，造成噪声过大。因此作者引入了empirical contrastive loss expectation，也就是基于期望来计算SimCLR，从而来来判断hard samples。

3.2 Proximity

很直观，这个loss就在拉近原始数据集和外部采样数据集特征之间的期望，期望越小，表示未标注的open set和原任务越相关。

3.3 Diversity

为了追求采样的多样性，利用上述策略避免采样的样本跟原始样本过于相似。

最后的loss如下所示：

算法概括如下：

4. 实验

实验采用ImageNet-LT作为数据集：

可以大发现，在原始数据集上通过对外部数据集采样进行提升，可以有效地改进模型处理open world中长尾效应的性能。

笑容实验来看，其实Tailness和Proximity比较重要，而多样性这种约束提升有限。个人觉得主要的原因还是，实际上还是在利用有限的close set来辅助训练，模型本身的diversity也没有很丰富，所以加入这个优化目标作用有限。

利用t_SNE可视化的效果如上图所示。

5. 结论

开放世界的样本数据往往呈现长尾分布，进一步破坏了对比学习的平衡性。论文通过提出一个统一的采样框架MAK来解决这个重要的问题。它通过抽样额外的数据显著地提高了对比学习的平衡性和准确性。论文提出的方法有助于在实际应用中提高长尾数据的平衡性。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Mak

Mak

+关注

关注
0

文章
2

浏览量
7174

原文标题：MAK 基于开放世界取样提升不平衡对比学习

文章出处：【微信号：GiantPandaCV，微信公众号：GiantPandaCV】欢迎添加关注！文章转载请注明出处。

如何理解矢量测量中“平衡”与“不平衡

在矢量测试中，经常需要测量信号的不平衡性，会遇到相关的几个名词：Balance（平衡），Unbalance（不平衡/非平衡）和Imbalance（不

发表于 03-29 10:51 •2901次阅读

三相不平衡治理装置的应用优势

电力电气行业的“新宠儿”。三相不平衡未来需求将爆发增涨三相不平衡治理需求是当前电能质量提升比较大的市场，很多企业看到了这个市场，面对这个机会，原有产品却无法满足相应需求，大批企业通过引入三相不

发表于 02-18 13:06

对地不平衡测试电路

对地不平衡测试电路

发表于 03-04 20:40 •906次阅读

不平衡型AFC电路

不平衡型AFC电路如图不平衡型AFC电路,它由鉴相器，比较锯齿波形成电路，

发表于 08-05 23:52 •1771次阅读

模拟信号平衡输入/不平衡输出电路

模拟信号平衡输入/不平衡输出电路

发表于 10-11 10:43 •5965次阅读

基于主动学习不平衡多分类AdaBoost改进算法

针对不平衡分类中小类样本识别率低问题，提出一种基于主动学习不平衡多分类AdaBoost改进算法。首先，利用主动学习方法通过多次迭代抽样，选取少量的、对分类器最有价值的样本作为训练集；然

发表于 11-30 17:12 •3次下载

三相电压不平衡产生原因_三相电压不平衡的治理措施

电力系统中三相电压不平衡产生的主要原因是负荷的不平衡和系统阻抗的不平衡。其中负荷的不平衡是造成三相电压不平衡的主要原因，比较明显的单相负荷由

发表于 10-28 16:43 •2.5w次阅读

电机转子不平衡对电机质量的影响大吗

转子不平衡对电机质量的影响有哪些？小编将分析转子机械不平衡产生的振动和噪声问题。

发表于 08-30 10:51 •1020次阅读

三相不平衡是什么意思？三相电压不平衡怎么处理？

三相不平衡是什么意思？三相电压不平衡怎么处理？三相不平衡是指三相电压或电流的幅度或相位不同，这会导致电力系统的不稳定、效率低下、设备寿命短等问题。在三相电力系统中，三相电压应该相等且相位差为

发表于 09-25 17:36 •4630次阅读

三相电压不平衡是什么原因造成的？三相不平衡会跳闸吗？

三相电压不平衡是什么原因造成的？三相不平衡会跳闸吗？三相不平衡度允许范围三相电压不平衡是指三相电源电压之间的差异，通常是由电源系统出现故障或不良设计引起的。

发表于 09-25 17:36 •8192次阅读

I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢？

I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢？ I/Q不平衡是指在I（即“In-phase”）和Q（即“Quadrature-phase”）信道的输出之间存在不平衡的状态。

发表于 10-31 09:34 •1306次阅读

三相电压不平衡对电路的影响

三相电压不平衡对电路的影响三相电压不平衡是指三相电网中三个相电压的幅值和相位不一致，造成电压波形不对称的情况。常见的三相电压不平衡情况包括电压幅值不平衡、相位

发表于 12-11 17:16 •3168次阅读

三相不平衡最佳解决办法三相不平衡多少范围内是合理的

三相不平衡最佳解决办法在电力系统中，三相不平衡是指三个相之间电压或电流不相等的现象。当三相不平衡的情况发生时，可能会导致线路过载、设备寿命缩短、电能损耗增加等问题。因此，解决三相不平衡

发表于 02-06 10:07 •3743次阅读

三相不平衡调节装置三相不平衡会造成什么后果

三相不平衡调节装置是一种用于解决三相电力系统中三相电压或电流不平衡问题的设备。在本文中，我们将探讨三相不平衡的原因、后果和解决方案，并详细介绍三相不平衡调节装置的工作原理和应用。引言

发表于 02-06 10:14 •2246次阅读

平衡电阻器可以改为不平衡吗

在电子电路中，平衡电阻器与不平衡电阻器各自扮演着重要的角色。平衡电阻器主要用于实现电路的平衡和稳定性，减少噪音和干扰，提高信号质量。而不平衡

发表于 01-30 14:31 •577次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

浅析MAK基于开放世界取样提升不平衡对比学习

评论

如何理解矢量测量中“平衡”与“不平衡

三相不平衡治理装置的应用优势

对地不平衡测试电路

不平衡型AFC电路

模拟信号平衡输入/不平衡输出电路

基于主动学习不平衡多分类AdaBoost改进算法

三相电压不平衡产生原因_三相电压不平衡的治理措施

电机转子不平衡对电机质量的影响大吗

三相不平衡是什么意思？三相电压不平衡怎么处理？

三相电压不平衡是什么原因造成的？三相不平衡会跳闸吗？

I/Q不平衡的来源 IQ信道之间的不平衡会造成什么影响呢？

三相电压不平衡对电路的影响

三相不平衡最佳解决办法三相不平衡多少范围内是合理的

三相不平衡调节装置三相不平衡会造成什么后果

平衡电阻器可以改为不平衡吗