0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过引入实例 scale-uniform 采样策略与 crop-aware 边框回归损失实现 SOTA 性能

工程师邓生 来源:机器之心Pro 作者:Lorenzo Porzi 2021-02-15 09:11 次阅读

高分辨率图像上的全景分割面临着大量的挑战,当处理很大或者很小的物体时可能会遇到很多困难。来自 Facebook 的研究者通过引入实例 scale-uniform 采样策略与 crop-aware 边框回归损失,能够在所有尺度上改善全景分割效果,并在多个数据集上实现 SOTA 性能。

全景分割网络可以应对很多任务(目标检测、实例分割和语义分割),利用多批全尺寸图像进行训练。然而,随着任务的日益复杂和网络主干容量的不断增大,尽管在训练过程中采用了诸如 [25,20,11,14] 这样的节约内存的策略,全图像训练还是会被可用的 GPU 内存所抑制。明显的缓解策略包括减少训练批次大小、缩小高分辨率训练图像,或者使用低容量的主干。不幸的是,这些解决方法引入了其他问题:1) 小批次大小可能导致梯度出现较大的方差,从而降低批归一化的有效性 [13],降低模型的性能 ;2)图像分辨率的降低会导致精细结构的丢失,这些精细结构与标签分布的长尾目标密切相关;3)最近的一些工作[28,5,31] 表明,与容量较低的主干相比,具有复杂策略的更大的主干可以提高全景分割的结果。

克服上述问题的一个可能策略是从基于全图像的训练转向基于 crop 的训练。这被成功地用于传统的语义分割[25,3,2]。由于任务被限定在逐像素的分类问题,整个问题变得更加简单。通过固定某个 crop 的大小,精细结构的细节得以保留。而且,在给定的内存预算下,可以将多个 crop 堆叠起来,形成大小合理的训练批次。但对于更复杂的任务,如全景分割,简单的 cropping 策略也会影响目标检测的性能,进而影响实例分割的性能。具体来说,在训练过程中,从图像中提取固定大小的 crop 会引入对大目标进行截取的偏置,在对完整图像进行推断时低估这些目标的实际边界框大小(参见图 1 左)。

0417add1164040f1b2886c4c42cfefc0.png

为了解决这一问题,Facebook 的研究者进行了以下两方面的改进。首先,他们提出了一种基于 crop 的训练策略,该策略可以利用 crop-aware 损失函数(crop-aware bounding box, CABB)来解决裁剪大型目标的问题;其次,他们利用 instance scale-uniform sampling(ISUS)作为数据增强策略来解决训练数据中目标尺度不平衡的问题。

论文链接:https://arxiv.org/abs/2012.07717

研究者表示,他们的解决方案拥有上述从基于 crop 训练中得到的所有益处。此外,crop-aware 损失还会鼓励模型预测出与被裁剪目标可视部分一致的边界框,同时又不过分惩罚超出 crop 区域的预测。

背后的原理非常简单:虽然一个目标边界框的大小在裁剪后发生了变化,但实际的目标边界框可能比模型在训练过程中看到的还要大。对于超出 crop 可视范围但仍在实际大小范围内的预测采取不惩罚的做法,这有助于更好地对原始训练数据给出的边界框大小分布进行建模。通过 ISUS,研究者引入了一种有效的数据增强策略,以改进多个尺度上用于目标检测的特征金字塔状表示。该策略的目的是在训练过程中更均匀地在金字塔尺度上分布目标实例监督,从而在推理过程中提高所有尺度实例的识别准确率。

实验结果表明,研究者提出的 crop-aware 损失函数对具有挑战性的 Mapillary Vistas、Indian Driving 或 Cityscapes 数据集中的高分辨率图像特别有效。总体来说,研究者的解决方案在这些数据集上实现了 SOTA 性能。其中,在 MVD 数据集上,PQ 和 mAP 分别比之前的 SOTA 结果高出 4.5% 和 5.2%。

算法介绍

实例 Scale-Uniform 采样 (ISUS)

研究者对 Samuel Rota Bulo 等人提出的 Class-Uniform 采样(CUS)方法进行了扩展,创建了全新的 Instance Scale-Uniform 采样(ISUS)方法。标准的 CUS 数据准备过程遵循四个步骤:1)以均匀的概率对语义类进行采样;2)加载包含该类的图像并重新缩放,使其最短边与预定义大小 s_0 匹配;3)数据增强(例如翻转、随机缩放);4)从所选类可见的图像区域中生成随机 crop。

在 ISUS 方法中,研究者遵循与 CUS 相同的步骤,只是尺度增强过程是 instance-aware 的。具体地,当在步骤 1 中选择「thing」类( 可数的 objects,如 people, animals, tools 等),并在完成步骤 2 之后,研究者还从图像和随机特征金字塔层级中采样该类的随机实例。然后在第 3 步中,他们计算了一个缩放因子σ,这样所选实例将根据训练网络采用的启发式方法分配到所选层级。

为了避免出现过大或过小的缩放因子,研究者将σ限制在有限范围 r_th 中。当在步骤 1 中选择「stuff」类(相同或相似纹理或材料的不规则区域,如 grass、sky、road 等)时,他们遵循标准的尺度增强过程,即从一个范围 r_st 均匀采样 σ。从长远来看,ISUS 具有平滑目标尺度分布的效果,在所有尺度上提供更统一的监督。

Crop-Aware 边界框 (CABB)

在 crop 操作之后,研究者将真值边界框 G 的概念放宽为一组与 G|_C 一致的真值框。用ρ(G,C)函数计算给定真值框 G 和 cropping 面积 C,公式如下

9ee9f58093004cd39843e48d9ca01335.jpeg

其中 X 覆盖所有可能的边界框Β。研究者将 ρ(G, C) 作为 Crop-Aware 边框(CABB),它实际上是一组边框(参见下图 3)。如果真值边框 G 严格地包含在 crop 区域中,那么 CABB 归结为原始真值,在这种情况下 ρ(G, C) = {G}。

5a6c7e716e114ed1b310650ba9079946.png

Crop-aware 边框损失:该研究对给定的真值框 G、anchor 框 A 和 crop 区域 C 引入了以下新的损失函数:

f8719ba9a32b410eaaaeae35b772e359.png

实验

研究者在以下三个公开高分辨率全景分割数据集上评估了 CABB 损失:它们分别是 Mapillary Vistas(MVD)、Indian Driving Dataset(IDD)和 Cityscapes(CS)。

网络与训练细节

该研究遵循无缝场景分割(Seamless-Scene-Segmentation)[23]框架,并进行了修改。首先,研究者用 HRNetV2-W48+[28,6]替换 ResNet-50 主体,前者是一种专门的骨干网络,它保存从图像到网络最后阶段的高分辨率信息;其次,研究者将 [23] 中的 Mini-DL 分割头替换为 DeepLabV3+[4]模块,该模块连接到 HRNetV2-W48 + 主干。最后将同步的 InPlace-ABN [25]应用于整个网络,并在候选区域和目标检测模块中使用 CABB 损失替换标准边界框回归损失。

具体流程如下图所示:

df38a76bb5b3437ab86a7a7a7a413ae8.png

与 SOTA 结果进行比较

下表 1 顶部的 MVD 结果表明,CROP 在所有指标上均优于 FULL,这证明了基于 crop 训练的优势。除此以外,即使是该网络变体中最弱的,也超过了所有的 PQ 基准,唯一的例外是基于 HRNet-W48 的 Panooptic Deeplab 版本。

表 1 中间的 IDD 实验得到了类似的结果:CROP 在大多数指标上优于 FULL,而 CABB+ISUS 带来了进一步改进,在 PC 中最为显著。与之前的工作相比,该研究观察到 mAP 分数和 SOTA PQ 都有了很大的提高,而分割指标有点落后。

表 1 底部的 Cityscapes 结果呈现相同趋势,尽管边际损失(margin)有所下降。需要注意,Cityscapes 是比 IDD 和 MVD 都小的数据集,在某些度量标准中,SOTA 结果接近 90%,因此预计会有较小的改进。尽管如此,与以前最佳方法相比,CROP+CABB+ISUS 在 mAP 上实现了 1.5%以上的显著提升。

f61477c05139402cab78e20277be6825.png

实验细节

上表 1 为均在 1024×1024 crop 上训练的两种设置的结果:从其原始代码中复制(Seamless + CROP)的未修改网络 [23],以及结合 CABB 损失和 ISUS 网络(Seamless+CABB+ISUS)的同一网络。

与该研究的其他结果一致,基于 crop 训练的引入相较基准实现了一致改进,特别是在检测指标方面,同时 CABB 损失和 ISUS 进一步提高了分数,在 PQ w.r.t.Seamelss 上提升了 2.8% 以上。

下图 6 展示了在具有大型目标的 12Mpixels Mapillary Vistas 验证图像上,CROP 与 CROP+CABB+ISUS 的输出之间的对比情况:

fe6056cbe032474a8c877a49206c98dc.png

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4601

    浏览量

    92683
  • 图像分割
    +关注

    关注

    4

    文章

    182

    浏览量

    17981
  • 分割
    +关注

    关注

    0

    文章

    17

    浏览量

    11893
收藏 人收藏

    评论

    相关推荐

    使用PWM实现电源管理的策略

    着重要作用,以下是使用PWM实现电源管理的策略: 一、PWM在电源管理中的基本原理 PWM控制策略是一种通过不同占空比的脉冲信号来控制输出电压和电流的技术。在PWM控制中,周期性的脉冲
    的头像 发表于 11-18 16:23 285次阅读

    什么是回归测试_回归测试的测试策略

    是否在新软件版本上再次出现。 2、测试策略 回归测试的策略一般由测试经理或测试组长制定,初级软件测试人员只要按相应的策略执行测试即可。现以XYC邮箱的测试为例,简要介绍一下
    的头像 发表于 11-14 16:44 133次阅读

    PCM1864采样音频数据的谐波及底噪可能会是由什么引入的呢?

    输入1KHz 0dB音频信号 600mRMS给PCM1864,通过I2S连接DSP C5517。DSP通过USB传输给电脑。测试数据如下。模拟增益配置0dB 采样到的信号有较大的谐波失真。如果直接
    发表于 10-15 06:17

    基于ArkTS语言的OpenHarmony APP应用开发:图片处理

    1、程序介绍本案例使用TextArea实现多文本输入,使用mediaLibrary实现在相册中获取图片,使用image生成pixelMap,使用pixelMap的scale(),crop
    的头像 发表于 09-20 08:07 407次阅读
    基于ArkTS语言的OpenHarmony APP应用开发:图片处理

    电流采样电阻的采样原理

    电流采样电阻的采样原理主要基于欧姆定律,即电阻上的电压降与通过该电阻的电流成正比,其关系可以表示为V=I*R,其中V是电阻两端的电压,I是通过电阻的电流,R是电阻的阻值。以下是电流
    的头像 发表于 08-27 10:03 994次阅读

    性能高达 6 倍,Flexus X 实例用实力阐述什么是新一代柔性算力

    X 实例(以下简称:Flexus X 实例)凭借其前沿的性能和创新技术,正在加速行业变革,引领着云计算技术的新趋势。随着更多企业和组织寻求通过技术优势
    的头像 发表于 07-03 15:43 639次阅读
    <b class='flag-5'>性能</b>高达 6 倍,Flexus X <b class='flag-5'>实例</b>用实力阐述什么是新一代柔性算力

    请问如何才能实现ESP32的2MSPS采样

    的continous_read_main 四个工程我都尝试过了,我的结论是ESP32最多只能支持250KSPS采样。 我曾在乐鑫中文论坛找到过一篇关于实现2MSPS的实例,但其IDF已落后,多数
    发表于 06-13 07:34

    NB81是否支持OneNet SOTA功能?应该如何激活SOTA

    NB81是否支持OneNet SOTA功能? 可以支持,应该如何激活SOTA
    发表于 06-04 06:14

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,为什么?

    旋变位置不变的情况下,当使能SOTA功能与关闭SOTA功能时,APP中DSADC采样得到的旋变sin和cos两者值不一样,用示波器采的输入到MCU端的差分电压是一样的,难道是SOTA使
    发表于 05-17 08:13

    Scale out成高性能计算更优解,通用互联技术大有可为

    提升集群规模,就需要把数据中心从微观到宏观、点对点地连接起来,增强各个层面的互联性能,真正有效地应用算力资源。” 奇异摩尔创始人兼CEO田陌晨在接受电子发烧友采访时表示。     伴随着摩尔定律的放缓步伐,通过Scale up提
    的头像 发表于 04-07 00:06 2843次阅读
    <b class='flag-5'>Scale</b> out成高<b class='flag-5'>性能</b>计算更优解,通用互联技术大有可为

    如何通过GD32 MCU内部ADC参考电压通道提高采样精度?

    ADC采样精度受很多因素影响,比如电源波动、参考电压波动、输入信号波动等,GD32 MCU内部提供了一个参考电压通道,理论上可以优化由于电源和参考电压较大波动引入采样误差。
    的头像 发表于 02-26 09:14 2188次阅读
    如何<b class='flag-5'>通过</b>GD32 MCU内部ADC参考电压通道提高<b class='flag-5'>采样</b>精度?

    对象检测边界框损失函数–从IOU到ProbIOU介绍

    目标检测损失函数的选择在目标检测问题建模中至关重要。通常,目标检测需要两个损失函数,一个用于对象分类,另一个用于边界框回归(BBR)。
    的头像 发表于 01-24 10:50 2601次阅读
    对象检测边界框<b class='flag-5'>损失</b>函数–从IOU到ProbIOU介绍

    foc单电阻采样时序的软件实现

    FOC(Field-Oriented Control,磁场定向控制)是一种用于交流电机控制的方法,在许多应用中被广泛采用。FOC单电阻采样时序是FOC控制中的一种方法,可以通过软件实现。本文将详细
    的头像 发表于 12-28 14:46 1629次阅读

    深入解读OTA,了解两大子系统FOTA与SOTA的升级优势

    FOTA(FirmwareOver-The-Air)和SOTA(SoftwareOver-The-Air)是OTA中两种远程更新技术,常用于更新移动设备(例如手机、平板电脑)或车辆中的固件和软件
    的头像 发表于 12-14 16:08 946次阅读
    深入解读OTA,了解两大子系统FOTA与<b class='flag-5'>SOTA</b>的升级优势

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
    的头像 发表于 12-12 11:23 762次阅读
    三项<b class='flag-5'>SOTA</b>!MasQCLIP:开放词汇通用图像分割新网络