通过引入实例 scale-uniform 采样策略与 crop-aware 边框回归损失实现 SOTA 性能-电子发烧友网

高分辨率图像上的全景分割面临着大量的挑战，当处理很大或者很小的物体时可能会遇到很多困难。来自 Facebook 的研究者通过引入实例 scale-uniform 采样策略与 crop-aware 边框回归损失，能够在所有尺度上改善全景分割效果，并在多个数据集上实现 SOTA 性能。

全景分割网络可以应对很多任务（目标检测、实例分割和语义分割），利用多批全尺寸图像进行训练。然而，随着任务的日益复杂和网络主干容量的不断增大，尽管在训练过程中采用了诸如［25，20，11，14］这样的节约内存的策略，全图像训练还是会被可用的 GPU 内存所抑制。明显的缓解策略包括减少训练批次大小、缩小高分辨率训练图像，或者使用低容量的主干。不幸的是，这些解决方法引入了其他问题：1）小批次大小可能导致梯度出现较大的方差，从而降低批归一化的有效性［13］，降低模型的性能；2）图像分辨率的降低会导致精细结构的丢失，这些精细结构与标签分布的长尾目标密切相关；3）最近的一些工作［28，5，31］表明，与容量较低的主干相比，具有复杂策略的更大的主干可以提高全景分割的结果。

克服上述问题的一个可能策略是从基于全图像的训练转向基于 crop 的训练。这被成功地用于传统的语义分割［25，3，2］。由于任务被限定在逐像素的分类问题，整个问题变得更加简单。通过固定某个 crop 的大小，精细结构的细节得以保留。而且，在给定的内存预算下，可以将多个 crop 堆叠起来，形成大小合理的训练批次。但对于更复杂的任务，如全景分割，简单的 cropping 策略也会影响目标检测的性能，进而影响实例分割的性能。具体来说，在训练过程中，从图像中提取固定大小的 crop 会引入对大目标进行截取的偏置，在对完整图像进行推断时低估这些目标的实际边界框大小（参见图 1 左）。

为了解决这一问题，Facebook 的研究者进行了以下两方面的改进。首先，他们提出了一种基于 crop 的训练策略，该策略可以利用 crop-aware 损失函数（crop-aware bounding box， CABB）来解决裁剪大型目标的问题；其次，他们利用 instance scale-uniform sampling（ISUS）作为数据增强策略来解决训练数据中目标尺度不平衡的问题。

论文链接：https://arxiv.org/abs/2012.07717

研究者表示，他们的解决方案拥有上述从基于 crop 训练中得到的所有益处。此外，crop-aware 损失还会鼓励模型预测出与被裁剪目标可视部分一致的边界框，同时又不过分惩罚超出 crop 区域的预测。

背后的原理非常简单：虽然一个目标边界框的大小在裁剪后发生了变化，但实际的目标边界框可能比模型在训练过程中看到的还要大。对于超出 crop 可视范围但仍在实际大小范围内的预测采取不惩罚的做法，这有助于更好地对原始训练数据给出的边界框大小分布进行建模。通过 ISUS，研究者引入了一种有效的数据增强策略，以改进多个尺度上用于目标检测的特征金字塔状表示。该策略的目的是在训练过程中更均匀地在金字塔尺度上分布目标实例监督，从而在推理过程中提高所有尺度实例的识别准确率。

实验结果表明，研究者提出的 crop-aware 损失函数对具有挑战性的 Mapillary Vistas、Indian Driving 或 Cityscapes 数据集中的高分辨率图像特别有效。总体来说，研究者的解决方案在这些数据集上实现了 SOTA 性能。其中，在 MVD 数据集上，PQ 和 mAP 分别比之前的 SOTA 结果高出 4.5% 和 5.2%。

算法介绍

实例 Scale-Uniform 采样（ISUS）

研究者对 Samuel Rota Bulo 等人提出的 Class-Uniform 采样（CUS）方法进行了扩展，创建了全新的 Instance Scale-Uniform 采样（ISUS）方法。标准的 CUS 数据准备过程遵循四个步骤：1）以均匀的概率对语义类进行采样；2）加载包含该类的图像并重新缩放，使其最短边与预定义大小 s_0 匹配；3）数据增强（例如翻转、随机缩放）；4）从所选类可见的图像区域中生成随机 crop。

在 ISUS 方法中，研究者遵循与 CUS 相同的步骤，只是尺度增强过程是 instance-aware 的。具体地，当在步骤 1 中选择「thing」类（可数的 objects，如 people， animals， tools 等），并在完成步骤 2 之后，研究者还从图像和随机特征金字塔层级中采样该类的随机实例。然后在第 3 步中，他们计算了一个缩放因子σ，这样所选实例将根据训练网络采用的启发式方法分配到所选层级。

为了避免出现过大或过小的缩放因子，研究者将σ限制在有限范围 r_th 中。当在步骤 1 中选择「stuff」类（相同或相似纹理或材料的不规则区域，如 grass、sky、road 等）时，他们遵循标准的尺度增强过程，即从一个范围 r_st 均匀采样 σ。从长远来看，ISUS 具有平滑目标尺度分布的效果，在所有尺度上提供更统一的监督。

Crop-Aware 边界框（CABB）

在 crop 操作之后，研究者将真值边界框 G 的概念放宽为一组与 G|_C 一致的真值框。用ρ（G，C）函数计算给定真值框 G 和 cropping 面积 C，公式如下

其中 X 覆盖所有可能的边界框Β。研究者将 ρ（G， C）作为 Crop-Aware 边框（CABB），它实际上是一组边框（参见下图 3）。如果真值边框 G 严格地包含在 crop 区域中，那么 CABB 归结为原始真值，在这种情况下 ρ（G， C） = {G}。

Crop-aware 边框损失：该研究对给定的真值框 G、anchor 框 A 和 crop 区域 C 引入了以下新的损失函数：

实验

研究者在以下三个公开高分辨率全景分割数据集上评估了 CABB 损失：它们分别是 Mapillary Vistas（MVD）、Indian Driving Dataset（IDD）和 Cityscapes（CS）。

网络与训练细节

该研究遵循无缝场景分割（Seamless-Scene-Segmentation）［23］框架，并进行了修改。首先，研究者用 HRNetV2-W48+［28，6］替换 ResNet-50 主体，前者是一种专门的骨干网络，它保存从图像到网络最后阶段的高分辨率信息；其次，研究者将［23］中的 Mini-DL 分割头替换为 DeepLabV3+［4］模块，该模块连接到 HRNetV2-W48 + 主干。最后将同步的 InPlace-ABN ［25］应用于整个网络，并在候选区域和目标检测模块中使用 CABB 损失替换标准边界框回归损失。

具体流程如下图所示：

与 SOTA 结果进行比较

下表 1 顶部的 MVD 结果表明，CROP 在所有指标上均优于 FULL，这证明了基于 crop 训练的优势。除此以外，即使是该网络变体中最弱的，也超过了所有的 PQ 基准，唯一的例外是基于 HRNet-W48 的 Panooptic Deeplab 版本。

表 1 中间的 IDD 实验得到了类似的结果：CROP 在大多数指标上优于 FULL，而 CABB+ISUS 带来了进一步改进，在 PC 中最为显著。与之前的工作相比，该研究观察到 mAP 分数和 SOTA PQ 都有了很大的提高，而分割指标有点落后。

表 1 底部的 Cityscapes 结果呈现相同趋势，尽管边际损失（margin）有所下降。需要注意，Cityscapes 是比 IDD 和 MVD 都小的数据集，在某些度量标准中，SOTA 结果接近 90％，因此预计会有较小的改进。尽管如此，与以前最佳方法相比，CROP+CABB+ISUS 在 mAP 上实现了 1.5％以上的显著提升。

实验细节

上表 1 为均在 1024×1024 crop 上训练的两种设置的结果：从其原始代码中复制（Seamless + CROP）的未修改网络［23］，以及结合 CABB 损失和 ISUS 网络（Seamless+CABB+ISUS）的同一网络。

与该研究的其他结果一致，基于 crop 训练的引入相较基准实现了一致改进，特别是在检测指标方面，同时 CABB 损失和 ISUS 进一步提高了分数，在 PQ w.r.t.Seamelss 上提升了 2.8% 以上。

下图 6 展示了在具有大型目标的 12Mpixels Mapillary Vistas 验证图像上，CROP 与 CROP+CABB+ISUS 的输出之间的对比情况：

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4618

浏览量
93036
图像分割

图像分割

+关注

关注
4

文章
182

浏览量
18018
分割

分割

+关注

关注
0

文章
17

浏览量
11908

高通推出Qualcomm Aware平台最新版本

在CES 2025上，高通技术公司宣布推出Qualcomm Aware平台的最新版本，这一基于云的服务平台支持企业为物流、零售、能源、智能家居和机器人等行业的智能网联终端增加可观测性、监测和定位功能

发表于 01-07 10:36 •108次阅读

Mamba入局图像复原,达成新SOTA

MambaIRv2，更高性能、更高效率！另外还有ACM MM 2024上的Freqmamba方法，在图像去雨任务中取得了SOTA性能！显然，这种基于Mamba的方法在图像复原领域，比基于CNN

发表于 12-30 18:09 •134次阅读

Mamba入局图像复原,达成新<b class='flag-5'>SOTA</b>

华为云 X 实例 CPU 性能测试详解与优化策略

引言 1. 测试环境搭建 1.1 测试实例的选择 1.2 CPU性能测试工具介绍 1.3 安装和配置Sysbench 2. CPU性能测试方法 2.1 测试场景设定

发表于 12-30 14:52 •113次阅读

华为云 X <b class='flag-5'>实例</b> CPU <b class='flag-5'>性能</b>测试详解与优化<b class='flag-5'>策略</b>

华为云Flexus X实例，Redis性能加速评测及对比

加速 Redis 的选项。本文旨在通过实际测试，展示华为云 Flexus X 实例在加速 Redis 方面的性能优势，并与其他业界 U1 实例进行对比。

发表于 12-29 15:47 •172次阅读

华为云Flexus X<b class='flag-5'>实例</b>，Redis<b class='flag-5'>性能</b>加速评测及对比

Flexus X 实例 CPU、内存及磁盘性能实测与分析

的网络带宽支持。最近华为云 828 B2B 企业节正在举办，Flexus X 实例的促销也非常给力，大家可以去看看。为了帮助用户更好地了解其性能表现，我们通过一系列详尽的测试，对 Flexus X

发表于 12-24 17:35 •183次阅读

使用PWM实现电源管理的策略

着重要作用，以下是使用PWM实现电源管理的策略：一、PWM在电源管理中的基本原理 PWM控制策略是一种通过不同占空比的脉冲信号来控制输出电压和电流的技术。在PWM控制中，周期性的脉冲

发表于 11-18 16:23 •528次阅读

什么是回归测试_回归测试的测试策略

是否在新软件版本上再次出现。 2、测试策略回归测试的策略一般由测试经理或测试组长制定，初级软件测试人员只要按相应的策略执行测试即可。现以XYC邮箱的测试为例，简要介绍一下

发表于 11-14 16:44 •297次阅读

PCM1864采样音频数据的谐波及底噪可能会是由什么引入的呢？

输入1KHz 0dB音频信号 600mRMS给PCM1864，通过I2S连接DSP C5517。DSP通过USB传输给电脑。测试数据如下。模拟增益配置0dB 采样到的信号有较大的谐波失真。如果直接

发表于 10-15 06:17

基于ArkTS语言的OpenHarmony APP应用开发：图片处理

1、程序介绍本案例使用TextArea实现多文本输入，使用mediaLibrary实现在相册中获取图片，使用image生成pixelMap，使用pixelMap的scale()，crop

发表于 09-20 08:07 •617次阅读

电流采样电阻的采样原理

电流采样电阻的采样原理主要基于欧姆定律，即电阻上的电压降与通过该电阻的电流成正比，其关系可以表示为V=I*R，其中V是电阻两端的电压，I是通过电阻的电流，R是电阻的阻值。以下是电流

发表于 08-27 10:03 •1337次阅读

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

NB81是否支持OneNet SOTA功能？可以支持，应该如何激活SOTA？

发表于 06-04 06:14

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，用示波器采的输入到MCU端的差分电压是一样的，难道是SOTA使

发表于 05-17 08:13

Scale out成高性能计算更优解，通用互联技术大有可为

提升集群规模，就需要把数据中心从微观到宏观、点对点地连接起来，增强各个层面的互联性能，真正有效地应用算力资源。” 奇异摩尔创始人兼CEO田陌晨在接受电子发烧友采访时表示。伴随着摩尔定律的放缓步伐，通过Scale up提

发表于 04-07 00:06 •2911次阅读

如何通过GD32 MCU内部ADC参考电压通道提高采样精度？

ADC采样精度受很多因素影响，比如电源波动、参考电压波动、输入信号波动等，GD32 MCU内部提供了一个参考电压通道，理论上可以优化由于电源和参考电压较大波动引入的采样误差。

发表于 02-26 09:14 •2336次阅读

对象检测边界框损失函数–从IOU到ProbIOU介绍

目标检测损失函数的选择在目标检测问题建模中至关重要。通常，目标检测需要两个损失函数，一个用于对象分类，另一个用于边界框回归（BBR）。

发表于 01-24 10:50 •2929次阅读

搜索历史

通过引入实例 scale-uniform 采样策略与 crop-aware 边框回归损失实现 SOTA 性能

评论

高通推出Qualcomm Aware平台最新版本

Mamba入局图像复原,达成新SOTA

华为云 X 实例 CPU 性能测试详解与优化策略

华为云Flexus X实例，Redis性能加速评测及对比

Flexus X 实例 CPU、内存及磁盘性能实测与分析

使用PWM实现电源管理的策略

什么是回归测试_回归测试的测试策略

PCM1864采样音频数据的谐波及底噪可能会是由什么引入的呢？

基于ArkTS语言的OpenHarmony APP应用开发：图片处理

电流采样电阻的采样原理

NB81是否支持OneNet SOTA功能？应该如何激活SOTA？

旋变位置不变的情况下，当使能SOTA功能与关闭SOTA功能时，APP中DSADC采样得到的旋变sin和cos两者值不一样，为什么？

Scale out成高性能计算更优解，通用互联技术大有可为

如何通过GD32 MCU内部ADC参考电压通道提高采样精度？

对象检测边界框损失函数–从IOU到ProbIOU介绍