0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

汤新加坡团队 针对长尾数据分布提出了视觉识别方案

ss 来源:学术头条 作者:学术头条 2020-11-25 17:05 次阅读

导读:在NeurIPS 2020上,商汤新加坡团队提出的Balanced-Meta Softmax (BALMS), 针对真实世界中常见的长尾数据分布提出了新的视觉识别方案。在优化目标方面,BALMS 提出一种新的损失函数,Balanced Softmax,来修正长尾设定下因训练与测试标签分布不同而导致的偏差。在优化过程方面,BALMS提出 Meta Sampler来自动学习最优采样率以配合Balanced Softmax,避免过平衡问题。BALMS在长尾图像分类与长尾实例分割的共四个数据集上取得SOTA表现。这项研究也被收录为ECCV LVIS workshop的spotlight。

论文名称: Balanced Meta-Softmax for Long-Tailed Visual Recognition

问题和挑战

真实世界中的数据分布大多符合长尾分布:常见类比占据了数据集中的主要样本,而大量的罕见类别只在数据集中少量出现。例如一个动物图片数据集中,宠物猫的图片数量可能远远超过熊猫的图片数量。

由于长尾现象对算法落地造成了很大的挑战,视觉社区对这一问题的关注日渐增加,近年陆续推出了一些长尾数据集,例如大规模实例分割数据集LVIS。我们发现长尾问题的难点主要存在于以下两个方面:

1)优化目标。根据长尾问题的设定,训练集是类别不均衡的。然而主流的指标,如mean AP (mAP),衡量全部类别上的平均精度,因此鼓励算法在类别平衡的测试集上取得较好的表现。这导致了训练与测试时标签分布不同的问题,我们称之为标签分布迁移。

2)优化过程。罕见类别在模型训练过程中很少出现,因此无法在优化过程中提供足够的梯度。这使得即使我们有了一个较好的优化目标,也很难使模型收敛到对应的全局最优。

方法介绍

1. Balanced Softmax

Softmax函数常常被用来将模型输出转化为物体属于每个类别的条件概率。

应用贝叶斯定理可以发现常规的Softmax回归会受到标签分布迁移的影响,并作出带偏差的估计。这个偏差导致Softmax回归出的分类器更倾向于认为样本属于常见类别。

举一个简单的例子,考虑这样一个任务:通过性别来分类猫和狗。这个任务看起来是无法完成的,因为我们知道性别在猫和狗上是均匀分布的。无论猫还是狗,都有50%的可能性是雌性和50%的可能性是雄性,因此只靠性别我们无法区别猫和狗。

有趣的是,当我们的训练数据是类别不平衡的时,比如有90%的猫和10%的狗,我们的估计就会出现偏差:这时无论是雄性还是雌性,我们都会倾向于认为它是一只猫。在这样的训练数据上学习到的分类器就会天然带有对常见类别的偏爱。

为了避免这个偏差,我们从多项分布的Exponential Family形式出发重新对Softmax进行了推导并显式考虑了标签分布迁移,得到了适合长尾问题的Balanced Softmax。同时,我们发现Balanced Softmax可以近似地最小化长尾设定下的泛化错误上界。

为了分析Balanced Softmax的效果,我们将模型在测试集上预测的分数在每个类别上累加,用来计算模型预测的标签分布。理想情况下,模型在测试集上预测出的标签分布应该是平衡的。在下图中我们对不同模型的预测类别进行了可视化,类别按照出现频率降序排列,第0类为出现次数最多的类。我们发现蓝色线代表的常规Softmax明显地偏向于常见类别,橙色线代表的Equalization Loss [1] 通过去除某阈值以下罕见类别的负样本梯度缓解了这一问题,而红色线代表的Balanced Softmax则进一步达到了最平衡的预测类别分布。

2. 元采样器Meta Sampler

虽然我们得到了一个适合长尾问题的理想的优化目标,优化过程本身依然充满挑战:罕见类别只能在训练中出现极少次数,因此无法很好地贡献到训练梯度。解决这一问题的最常见的方法是类别均衡采样 (CBS)[2],也就是对每个类别采样同样数量的样本来组成训练批次。然而,实验表明直接将Balanced Softmax与CBS一起使用会导致模型表现下降,于是我们对两者一起使用时的梯度进行了分析。在假设接近收敛时,我们有:

理想情况下每个类别的梯度的权重应和类别内样本数量成反比,但上式中的权重为和类别内样本数量成平方反比。我们将这个现象称为过平衡问题。

下图展示了一个对过平衡问题的可视化。这是一个类别不平衡的二维数据三分类问题,三个类别分别为红、黄、蓝,样本数量分别为10000、100和1。可以发现Balanced Softmax和CBS一起使用时,优化过程会被蓝色的罕见类别主导。

为了解决过平衡问题,我们提出了Meta Sampler(元采样器),一种可学习版本的CBS。Meta Sampler使用元学习的方法,显式地学习当前最佳的采样率,从而更好地配合Balanced Softmax的使用。

下图展示了我们对不同模型预测的标签分布进行的可视化。其中,紫色线代表的Balanced Softmax与CBS的组合由于过平衡问题,明显地偏向于尾部类别。而红色线代表的Balanced Softmax与Meta Sampler的组合则很好地解决了这一问题,最终取得了最为均衡的标签分布。

实验结果

我们在图像分类(CIFAR-10/100-LT,ImageNet-LT,Places-LT)与实例分割(LVIS-v0.5)两个任务上分别进行了实验验证。实验结果显示了Balanced Softmax和Meta Sampler对模型表现都有明显的贡献。两者的组合,Balanced Meta-Softmax (BALMS),在这两个任务上都达到或超过了SOTA结果,尤其在最具挑战性的LVIS数据集上大幅超过了之前的SOTA结果。

这项研究也被收录为ECCV LVIS workshop的Spotlight,关于LVSI-v1.0的相关实验结果可以在LVSI workshop主页上找到(Team Innova)。

结语

BALMS对长尾问题下的概率建模以及采样策略进行了探讨。我们发现常用的Softmax回归在存在标签分布迁移时会出现估计偏差,并提出了Balanced Softmax来避免这个偏差。另一方面,我们发现类别均衡采样器在与Balanced Softmax一起使用时会导致过平衡问题,于是提出元采样器来显式学习最优采样策略。我们的解决方案在长尾图像分类与长尾实例分割任务上均得到了验证。欢迎关注我们的开源代码库,希望BALMS可以成为未来长尾学习的良好基线。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7002

    浏览量

    88937
  • 视觉识别
    +关注

    关注

    3

    文章

    89

    浏览量

    16723
收藏 人收藏

    评论

    相关推荐

    开源项目 ! 利用边缘计算打造便携式视觉识别系统

    利用边缘计算打造便携式人工智能解决方案,面向开发者的视觉识别项目! 自制视觉识别系统 我们将深入探究一套堪称绝妙的软硬件组合,以助力开发者
    发表于 12-16 16:31

    金蝶新加坡数据中心盛大开业

    近日,金蝶国际在新加坡迎来了一个重要的里程碑时刻,正式宣布金蝶新加坡公司的正式成立以及数据中心的落成启用。 此次开业典礼标志着金蝶国际在全球化战略上迈出了坚实的一步。金蝶
    的头像 发表于 11-11 11:45 301次阅读

    一种完全分布式的点线协同视觉惯性导航系统

    在本文中,我们提出了一种完全分布式的点线协同视觉惯性导航系统。我们通过蒙特卡罗模拟和真实环境数据集,在稠密特征或稀疏特征环境下将所提出的算法
    的头像 发表于 09-30 14:45 383次阅读
    一种完全<b class='flag-5'>分布</b>式的点线协同<b class='flag-5'>视觉</b>惯性导航系统

    基于分布式存储系统医疗影像数据存储解决方案

    基于分布式存储系统医疗影像数据存储解决方案
    的头像 发表于 09-14 09:53 303次阅读
    基于<b class='flag-5'>分布</b>式存储系统医疗影像<b class='flag-5'>数据</b>存储解决<b class='flag-5'>方案</b>

    医疗PACS影像数据的极速分布式块存储解决方案

    医疗PACS影像数据的极速分布式块存储解决方案
    的头像 发表于 08-23 10:13 317次阅读
    医疗PACS影像<b class='flag-5'>数据</b>的极速<b class='flag-5'>分布</b>式块存储解决<b class='flag-5'>方案</b>

    瑞萨针对显示应用的MCU和方案介绍

    瑞萨针对人机交互的应用(TFT显示)推出了多款MCU产品和参考方案。从简单的串口屏方案到RGB和MIPI接口的TFT显示方案,瑞萨基于不同的
    发表于 07-02 18:23 771次阅读
    瑞萨<b class='flag-5'>针对</b>显示应用的MCU和<b class='flag-5'>方案</b>介绍

    新加坡智慧停车迎来革新,AMD携手恒星系统打造新型AI解决方案

    停车解决方案提供商新加坡恒星系统有限公司(Sun Singapore Systems Pte. Ltd.)已成功部署一款基于AI的新型智慧停车解决方案。这款革命性的方案由AMD的Zyn
    的头像 发表于 06-21 15:32 1674次阅读

    格芯斩获新加坡员工体验大奖(EX Awards)八项殊荣

    日前,在备受瞩目的2024年新加坡员工体验大奖(Singapore Employee Experience Awards,EX Awards)颁奖典礼上,格芯新加坡团队斩获八项大奖,并荣膺年度整体学习奖(Overall Lear
    的头像 发表于 05-30 16:11 550次阅读
    格芯斩获<b class='flag-5'>新加坡</b>员工体验大奖(EX Awards)八项殊荣

    基于FPGA EtherCAT的六自由度机器人视觉伺服控制设计

    和增强系统处理图像的实时性,本文提出了一种伊瑟特的六自由度机器人视觉伺服控制系统,将摄像头集成到基于 Zynq的伊瑟特主站上,提高了视觉伺服的实时性.经测试,该平台能够对视觉检测目标的
    发表于 05-29 16:17

    解决方案|3D视觉引导多SKU纸箱混拆

    在物流和包装行业,纸箱混拆是常见的作业需求。然而,由于纸箱的多样性(如尺寸、形状和重量),传统的方法往往难以应对。针对这一背景,富唯智能提出了基于3D视觉引导SKU纸箱的解决方案,助力
    的头像 发表于 05-10 16:36 391次阅读
    解决<b class='flag-5'>方案</b>|3D<b class='flag-5'>视觉</b>引导多SKU纸箱混拆

    解决方案|基于3D视觉技术的铝合金板件刷油烘干自动化上下料

    针对铝合金板件刷油烘干上下料过程中的自动化需求,我们提出了一套基于3D视觉引导的解决方案。该方案通过引入先进的3D
    的头像 发表于 04-20 17:45 318次阅读
    解决<b class='flag-5'>方案</b>|基于3D<b class='flag-5'>视觉</b>技术的铝合金板件刷油烘干自动化上下料

    苹果公司巨资2.5亿美元扩建新加坡园区

    苹果早在1981年就在新加坡设立首家工厂,主要负责早期个人电脑研发,当时仅有72名员工。现今,新加坡园区已发展成该地区的运营中枢,同时也是软件、硬件、服务和支持团队的核心所在地。
    的头像 发表于 04-18 16:58 1053次阅读

    分布式存储与计算:大数据时代的解决方案

    分布式存储和计算技术应运而生,并迅速成为处理大数据的首选方案。本文将深入探讨分布式存储和计算的概念、优势及其在各个领域的应用情况。 1.分布
    的头像 发表于 03-07 14:42 749次阅读

    机器视觉的图像目标识别方法综述

    文章来源:MEMS引言从20世纪80年代开始,机器视觉技术的发展速度不断加快,已经走进了人们的日常生活与工作之中。机器视觉的图像目标识别系统的自动化程度较高,应用范围广,尤其在危险场所的运用,采用
    的头像 发表于 02-23 08:26 710次阅读
    机器<b class='flag-5'>视觉</b>的图像目标<b class='flag-5'>识别</b>方法综述

    计算机视觉:AI如何识别与理解图像

    计算机视觉是人工智能领域的一个重要分支,它致力于让机器能够像人类一样理解和解释图像。随着深度学习和神经网络的发展,人们对于如何让AI识别和理解图像产生了浓厚的兴趣。本文将探讨计算机视觉中AI如何进
    的头像 发表于 01-12 08:27 1411次阅读
    计算机<b class='flag-5'>视觉</b>:AI如何<b class='flag-5'>识别</b>与理解图像