0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于有效样本数的类平衡损失

深度学习自然语言处理 来源:炼丹笔记 作者:炼丹笔记 2022-08-25 09:41 次阅读

本文综述了康奈尔大学、康奈尔科技、谷歌Brain和Alphabet公司的基于有效样本数的类平衡损失(CB损失)。在本文中,设计了一种重新加权的方案,利用每个类的有效样本数来重新平衡损失,称为类别平衡损失。使用每个类的有效样本数量来重新为每个类的Loss分配权重,效果优于RetinaNet中的Focal Loss。

1. 类别平衡问题

469786ae-239e-11ed-ba43-dac502259ad0.png

两个类,分别来自长尾数据集的头部和尾部(iNaturalist 2017 dataset)假设有像上面那样的不平衡的类。head:对于索引小的类,这些类有较多的样本。Tail:对于大索引的类,这些类的样本数量较少。黑色实线:直接在这些样本上训练的模型偏向于优势类红色虚线通过反向类频率来重新加权损失可能会在具有高类不平衡的真实数据上产生较差的性能。蓝虚线:设计了一个类平衡项,通过反向有效样本数来重新加权损失。 2. 有效样本数量

2.1. 定义

46b7f6f0-239e-11ed-ba43-dac502259ad0.png

数据间信息重叠,左:特征空间S,中:1个样本数据的单位体积,右:数据间信息重叠

直觉上,数据越多越好。但是,由于数据之间存在信息重叠,随着样本数量的增加,模型从数据中提取的边际效益会减少

:给定一个类,将该类的特征空间中所有可能数据的集合表示为S。假设S的体积为N且N≥1。:S子集中的每个样本的单位体积为1,可能与其他样本重叠。Right:从S中随机抽取每个子集,覆盖整个S集合。采样的数据越多,S的覆盖率就越好。期望的采样数据总量随着样本数量的增加而增加,以N为界。

因此,将有效样本数定义为样本的期望体积。

这个想法是通过使用一个类的更多数据点来捕捉边际效益的递减。由于现实世界数据之间的内在相似性,随着样本数量的增加,新添加的样本极有可能是现有样本的近重复。另外,cnn是用大量的数据增广来训练的,所有的增广实例也被认为与原始实例相同。对于一个类,N可以看作是唯一原型的数量

2.2. 数学公式

46c9501c-239e-11ed-ba43-dac502259ad0.png

新的采样数据与以前的采样数据重叠或不重叠

En表示样本的有效数量(期望体积)。为了简化问题,不考虑部分重叠的情况。也就是说,一个新采样的数据点只能以两种方式与之前的采样数据交互:完全在之前的采样数据集中,概率为p,或完全在原来的数据集之外,的概率为1-p

有效数字:En= (1−β^n)/(1−β),其中,β= (N− 1)/N,这个命题可以用数学归纳法证明。当E1 = 1时,不存在重叠,E1 =(1−β^1)/(1−β) = 1成立。假设已经有n−1个样本,并且即将对第n个样本进行采样,现在先前采样数据的期望体积为En −1,而新采样的数据点与先前采样点重叠的概率为p = E(n−1)/N。因此,第n个实例采样后的期望体积为:

46d6dfde-239e-11ed-ba43-dac502259ad0.png

此时:

46e3bf4c-239e-11ed-ba43-dac502259ad0.png

我们有:

46f32b08-239e-11ed-ba43-dac502259ad0.png

上述命题表明有效样本数是n的指数函数。超参数β∈[0,1)控制En随着n的增长有多快。

3. 类别平衡 Loss (CB Loss)

类别平衡(CB)loss可以写成:

4712f9b0-239e-11ed-ba43-dac502259ad0.png

其中,ny是类别y的ground-truth的数量。β= 0对应没有重新加权,β→ 1对应于用反向频率进行加权。

提出的有效样本数的新概念使我们能够使用一个超参数β来平滑地调整无重权和反向类频率重权之间的类平衡项。

所提出的类平衡项是模型不可知的损失不可知的,因为它独立于损失函数L和预测类概率p的选择。

3.1. 类别平衡的 Softmax 交叉熵损失

给定一个标号为y的样本,该样本的softmax交叉熵(CE)损失记为:

4722b210-239e-11ed-ba43-dac502259ad0.png

假设类y有ny个训练样本,类平衡(CB)softmax交叉熵损失为:

473159a0-239e-11ed-ba43-dac502259ad0.png

3.2. 类别平衡的 Sigmoid 交叉熵损失

当对多类问题使用sigmoid函数时,网络的每个输出都执行一个one-vs-all分类,以预测目标类在其他类中的概率。在这种情况下,Sigmoid不假定类之间的互斥性。由于每个类都被认为是独立的,并且有自己的预测器,所以sigmoid将单标签分类和多标签预测统一起来。这是一个很好的属性,因为现实世界的数据通常有多个语义标签。sigmoid交叉熵(CE)损失可以写成:

474c2fa0-239e-11ed-ba43-dac502259ad0.png

类平衡(CB) sigmoid交叉熵损失为:

475c813e-239e-11ed-ba43-dac502259ad0.png

3.3. 类别平衡 Focal Loss

Focal loss (FL)是在RetinaNet中提出的,可以减少分类很好的样本的损失,聚焦于困难的样本。

4768441a-239e-11ed-ba43-dac502259ad0.png

类别平衡的 (CB) Focal Loss为:

47765384-239e-11ed-ba43-dac502259ad0.png

4. 实验结果

4.1. 数据集

47914ac2-239e-11ed-ba43-dac502259ad0.png

用于评估类平衡损失有效性的数据集

试验了CIFAR-10和CIFAR-100的5个不平衡系数分别为10、20、50、100和200的长尾版本。iNaturalist 和ILSVRC是天然的类别不平衡数据集。

47a66cd6-239e-11ed-ba43-dac502259ad0.png

在人工创建的具有不同不平衡因子的长尾CIFAR-100数据集中,每类训练样本的个数

上面显示了每个类具有不同不平衡因素的图像数量。

4.2. CIFAR 数据集

47bbc158-239e-11ed-ba43-dac502259ad0.png

ResNet-32在长尾CIFAR-10和CIFAR-100测试集上用不同的损失函数训练的分类错误率

loss类型的超参数搜索空间为{softmax, sigmoid, focal}, [focal loss]的超参数搜索空间为β∈{0.9,0.99,0.999,0.9999},γ∈{0.5,1.0,2.0}。在CIFAR-10上,最佳的β一致为0.9999。但在CIFAR-100上,不同不平衡因子的数据集往往有不同且较小的最优β。

47d18952-239e-11ed-ba43-dac502259ad0.png

有和没有类平衡项时的分类错误率

CIFAR-10上,根据β= 0.9999重新加权后,有效样本数与样本数接近。这意味着CIFAR-10的最佳重权策略与逆类频率重权类似。在CIFAR-100上,使用较大的β的性能较差,这表明用逆类频率重新加权不是一个明智的选择,需要一个更小的β,具有更平滑的跨类权重。例如,一个特定鸟类物种的独特原型数量应该小于一个一般鸟类类的独特原型数量。由于CIFAR-100中的类比CIFAR-10更细粒度,因此CIFAR-100的N比CIFAR-10小。

4.3. 大规模数据集

48043cda-239e-11ed-ba43-dac502259ad0.png

在所有数据集验证集上,使用不同损失函数训练的大规模数据集上的Top-1和Top-5分类错误率

使用了类平衡的Focal Loss,因为它具有更大的灵活性,并且发现β = 0.999和γ = 0.5在所有数据集上都获得了合理的良好的性能。值得注意的是,使用了类别平衡的Focal Loss来代替Softmax交叉熵,ResNet-50能够达到和ResNet-152相应的性能。

4817359c-239e-11ed-ba43-dac502259ad0.png

ILSVRC 2012(左)和iNaturalist 2018(右)的ResNet-50训练曲线

以上数字显示类平衡的Focal Loss损失经过60个epochs的训练后,开始显示其优势。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4273

    浏览量

    62291
  • 模型
    +关注

    关注

    1

    文章

    3097

    浏览量

    48625
  • 数据集
    +关注

    关注

    4

    文章

    1200

    浏览量

    24608

原文标题:基于有效样本的类别不平衡损失CB-Loss

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    请教各位朋友:时域信号转FFT后为何要除以样本数后输出频域图啊?

    各位大侠,我是刚刚开始自学,基础差,好多东西不懂,请大家帮忙指导啊!!我看教程里:正弦时域信号,用fft变换后,为何还要除掉采集的样本数后再在频域图里面显示啊?(程序如下图) 教程里说“流程图
    发表于 06-26 09:13

    数据采集中的每通道采样数和每通道读取的样本数的区别是什么

    即每通道采样数和每通道读取的样本数是什么意思,这两者之间有什么关联,又和采样率有什关联
    发表于 07-29 16:39

    I2S如何填充到样本数

    =CyuU3pII2sWithth1616BIT;状态= CYU3PI2SSETCONFIG(和;I2SCFG,NULL);如果PAD模式是正常的,那么在32位样本数据中,LSB应该用零填充。在上面的示例代码中,它将I2S配置为
    发表于 11-15 16:02

    可以将多少个样本数字化

    万用表连接实用程序支持信号的数据记录和数字化。通过测量并将其存储到DMM的内部存储器中来支持数字化。可以数字化的样本数量仅限于此内部存储器。使用该实用程序时,您不会在屏幕上或帮助文件中看到此限制,但
    发表于 01-24 06:23

    TensorFlow损失函数(定义和使用)详解

    定义为变量,将数据集定义为占位符。可以有一个常学习率或变化的学习率和正则化常数。在下面的代码中,设 m 是样本数量,n 是特征数量,P 是类别数量。这里应该在代码之前定义这些全局参数:在标准线性回归
    发表于 07-28 14:38

    用于生成每个输出样本样本数量而言LIS3mdl磁力计的操作模式有何不同?

    就用于生成每个输出样本样本数量而言,LIS3mdl 磁力计的操作模式有何不同?例如,我发现在 ISM303DAC 中,用于生成的样本数输出样本在低功耗模式下比在低功耗模式下使用的数量
    发表于 01-06 07:31

    基于SLPS的模拟电路故障样本自动获取技术

    故障样本数据的获取是模拟电路故障诊断中最基本的步骤。为了实现短时间内多次进行故障注入、获取大量样本数据,提出了基于SLPS的样本数据自动获取技术。利用SLPS将PSpice与Matlab结
    发表于 01-31 17:31 46次下载
    基于SLPS的模拟电路故障<b class='flag-5'>样本</b>自动获取技术

    基于免疫克隆特征选择和US集成的二元分类器算法

    为解决垃圾网页检测过程中的维数灾难和不平衡分类问题,提出一种基于免疫克隆特征选择和欠采样(US)集成的二元分类器算法。首先,使用欠采样技术将训练样本集大类抽样成多个与小样本数相近的
    发表于 12-15 11:30 0次下载
    基于免疫克隆特征选择和US集成的二元分类器算法

    大文本数据集的间接谱聚

    总体的聚。将该思想应用于大文本数据集的聚问题后,过分簇中心之间的相似性度度量方法可以采用常用的余弦距离法。在20-Newgroups大本数据上的实验结果表明:间接谱聚
    发表于 02-24 14:43 0次下载

    入侵检测样本数据优化方法

    ,分析了算法的时间复杂度。实验结果表明,该方法可有效减少数据信息损失,具有迭代次数少、收敛速度快等优点,可有效提高入侵检测样本数据的优化效率。
    发表于 02-26 10:29 0次下载

    机器学习中样本比例不平衡应该怎样去应付

    这种现象往往是由于本身数据来源决定的,如信用卡的征信问题中往往就是正样本居多。样本比例不平衡往往会带来不少问题,但是实际获取的数据又往往是不平衡的,因此本文主要讨论面对
    发表于 03-30 09:57 1059次阅读
    机器学习中<b class='flag-5'>样本</b>比例不<b class='flag-5'>平衡</b>应该怎样去应付

    机器学习的训练样本数据选择方法综述

    和数据集的缩减,这两方面的研究工作是并行的。训练样本数据选择是机器学习的一个硏究热点,通过对样本数据的有效选择,提取更具有信息量的样本,剔除冗余样本
    发表于 04-26 14:45 8次下载
    机器学习的训练<b class='flag-5'>样本数</b>据选择方法综述

    极限学习机处理不平衡数据分类的算法

    基于代价敏感学习的极限学习机(ELM)算法在处理不平衡数据分类问题时,未考虑不同类别样本的分布特点以及同一别中各样本的重要性对分类结果的影响。为此,提出基于
    发表于 06-03 10:53 2次下载

    基于有效样本的类别不平衡损失

    样本数平衡损失(CB损失)。在本文中,设计了一种重新加权的方案,利用每个
    的头像 发表于 08-16 11:14 1881次阅读
    基于<b class='flag-5'>有效</b><b class='flag-5'>样本</b>的类别不<b class='flag-5'>平衡</b><b class='flag-5'>损失</b>

    英国医院通过RFID技术跟踪患者样本数据……

    英国医院通过RFID技术跟踪患者样本数据 为了更好地管理患者病例中的组织样本,医院决定引入RFID技术来构建实时跟踪系统。利兹教学医院作为英国国民健康保险制度(NHS)下的重要医疗机构,每年处理
    的头像 发表于 08-08 16:15 175次阅读
    英国医院通过RFID技术跟踪患者<b class='flag-5'>样本数</b>据……