一种新的带有不确定性的边界框回归损失，可用于学习更准确的目标定位-电子发烧友网

全球计算机视觉三大顶级会议之一 CVPR 2019 将于当地时间 6 月 16-20 日在美国洛杉矶举办。届时，旷视首席科学家、研究院院长孙剑博士将带领团队远赴盛会，助力计算机视觉技术的交流与落地。在此之前，旷视每周都会介绍一篇被 CVPR 2019 接收的论文，本文是第 6篇，提出了一种新的带有不确定性的边界框回归损失，可用于学习更准确的目标定位。

论文名称：Bounding Box Regression with Uncertainty for Accurate Object Detection

论文链接：https://arxiv.org/abs/1809.08545

导语

简介

方法

边界框参数化

使用KL损失的边界框回归

方差投票

实验

消融实验

准确的目标检测

在PASCAL VOC 2007上的实验

结论

参考文献

往期解读

导语

大规模目标检测数据集会尽可能清晰地定义基本 ground truth 边界框。但是，可以观察到在标记边界框时仍会存在模糊不清的现象。旷视研究院在本文中提出了一种全新的边界框回归损失，可用于同时学习边界框变换和定位方差。这种新损失能极大地提升多种架构的定位准确度，而且几乎不会有额外的计算成本。所学习到的定位方差也能帮助在非极大值抑制（NMS）期间融合相邻的边界框，进一步提升定位的效果。实验结果表明这种新方法比之前最佳的边界框优化方法更优。旷视研究院已公开相关代码和模型：github.com/yihui-he/KL-Loss

简介

ImageNet、MS-COCO 和 CrowdHuman 等大规模目标检测数据集都会尽可能清晰地定义基本 ground truth 边界框。

但是，可以观察到一些案例中的基本 ground truth 边界框原本就是模糊的，这会让边界框回归函数的学习更加困难。图 1 (a)(c) 是 MS-COCO 中两个边界框标记不准确的示例。当存在遮挡时，边界框的范围会更不清晰，比如来自 YouTube-BoundingBoxes 的图 1(d)。

图 1：边界框标注模糊的示例。(a,c) 是标注不准确，(b) 是存在遮挡，(d) 则是因为遮挡导致目标边界框本身并不清晰

目标检测是一种多任务学习问题，包含目标定位和目标分类。当前最佳的目标检测器（比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN）都依靠边界框回归来定位目标。

但是，传统的边界框回归损失（即平滑 L1 损失）没有考虑到基本 ground truth 边界框的模糊性。此外，人们通常假设当分类分数较高时，边界框回归是准确的，但事实并非总是如此，如图 2 所示。

图 2：VGG-16 Faster RCNN 在 MS-COCO 上的失败案例。(a) 两个边界框都不准确；(b)有较高分类分数的边界框的左边界是不准确的。

针对这些问题，本文提出了一种全新的边界框回归损失——KL 损失，用于同时学习边界框回归和定位的不确定性。具体来说，为了获取边界框预测的不确定性，研究员首先将边界框预测和基本 ground truth 边界框分别建模为高斯分布（Gaussian distribution）和狄拉克 δ 函数（Dirac delta function）。而新提出的边界框回归损失则被定义为预测分布和基本 ground truth 分布之间的 KL 距离。

使用 KL 损失进行学习有三大优势：

可以成功获取数据集中的模糊性。让边界框回归器在模糊边界框上得到的损失更小。

所学习到的方差可用于后处理阶段。研究者提出了方差投票（variance voting）方法，可在非极大值抑制（NMS）期间使用由预测的方差加权的临近位置来投票得到边界框的位置。

所学习到的概率分布是可解释的。因为其反映了边界框预测的不确定性，所以可能有助于自动驾驶和机器人等下游应用。

方法

下面将具体介绍这种新的损失函数和方差投票方法。

边界框参数化

在介绍新方法之前，先看看边界框参数化。本文提出基于 Faster R-CNN 或 Mask R-CNN 等两级式目标检测器（如图 3）分别回归边界框的边界。研究者将边界框表示成了一个四维向量，其中每一维都是框边界的位置。本文采用的参数化方案是 (x1, y1, x2, y2) 坐标（对角线），而非 R-CNN 使用的那种 (x, y, w, h) 坐标。

图 3：本文提出的用于估计定位置信度的网络架构。不同于两级式检测网络的标准 Fast R-CNN head，这个架构是估计边界框位置以及标准差，这会在新提出的 KL 损失得到考虑。

该网络的目标是在估计位置的同时估计定位置信度。形式上讲，该网络预测的是一个概率分布，而不只是边界框位置。尽管该分布可能更复杂，可能是多变量高斯分布或高斯混合分布，但该论文为了简单起见假设坐标是相互独立的且使用了单变量高斯分布。

另外，基本 ground truth 边界框也被形式化了一个高斯分布——狄拉克 δ 函数。

使用 KL 损失的边界框回归

在这里，目标定位的目标是在样本上最小化预测分布和基本 ground truth 分布之间的 KL 距离。这个 KL 距离即为边界框回归的损失函数 L_reg。而分类损失则保持不变。

其中，x_g 为基本 ground truth 边界框位置，x_e 为估计的边界框位置，D_KL 是 KL 距离，σ 是标准差，P_D 是基本 ground truth 狄拉克 δ 函数，P_Θ 是预测的高斯分布，Θ 是一组可学习的参数。

如图 4 所示，当 x_e 不准确时，网络会预测得到更大的方差 σ²，使 L_reg 更低。

图 4：蓝色和灰色的高斯分布是估计结果。橙色表示狄拉克 δ 函数，是基本 ground truth 边界框的分布。

方差投票

在获得预测位置的方差后，可根据所学习到的邻近边界框的方差直观地投票选择候选边界框位置。

如算法 1 所示，其代码基于 NMS，但有三行不一样。

本文是在标准 NMS 或 soft-NMS 的过程中投票所选框的位置。在选择了有最大分数的检测结果后，再根据它及其邻近边界框计算它本身的新位置。本文受 soft-NMS 的启发为更近的以及有更低不确定性的边界框分配了更高的权重。

在投票期间权重更低的邻近边界框包含两类：（1）高方差的边界框；（2）与所选边界框的 IoU 较小的边界框。投票不涉及分类分数，因为更低分数的框可能有更高的定位置信度。图 5 给出了方差投票的图示。使用方差投票可以避免图 2 中提到的那两类检测问题。

图 5：VGG-16 Faster R-CNN 在 MS-COCO 上的方差投票结果。每个边界框中的绿色文本框对应于预测的标准差 σ。

实验

旷视研究员基于 MS-COCO 和 PASCAL VOC 2007 数据集进行了实验。实验配置细节如下：

使用了 4 个 GPU

训练流程和批大小根据线性缩放规则进行调整

VGG-CNN-M-1024 和 VGG-16 的实现基于 Caffe；ResNet-50 FPN 和 Mask R-CNN 的实现基于 Detectron

VGG-16 Faster R-CNN 遵照 py-faster-rcnn（github.com/rbgirshick/py-faster-rcnn），在 train2014 上训练，在 val2014 上测试；其它目标检测网络的训练和测试分别在 train2017 和 val2017 上完成

σ_t 设为 0.02

除非另有说明，否则所有超参数都是默认设置（github.com/facebookresearch/Detectron）

研究者基于 VGG-16 Faster R-CNN 评估了每个模块对整体结果的贡献，包括 KL 损失、soft-NMS 和方差投票。表 1 给出了详细结果。可以看到，每新增一项改进，都能实现结果的进一步提升。

表 1：使用 VGG-16 Faster R-CNN 在 MS-COCO 数据集上检验每个模块的贡献

准确的目标检测

表 4 总结了在 ResNet-50-FPN Mask R-CNN 上不同方法对准确目标检测的效果。使用 KL 损失，网络可以在训练阶段学习调节模糊边界框的梯度。

表 4：在 MS-COCO 上，不同方法对准确目标检测的效果

旷视研究员还在特征金字塔网络（ResNet-50 FPN）上进行了评估，如表 6 所示。

表 6：FPN ResNet-50 在 MS-COCO 上的表现对比

在PASCAL VOC 2007上的实验

尽管本文是针对大规模目标检测提出了这一方法，但也可将该方法用于更小型的数据集。研究者使用 Faster R-CNN 在 PASCAL VOC 2007 上进行了实验，该数据集包含约 5000 张 voc_2007_trainval 图像和 5000 张 voc_2007_test 测试图像，涉及 20 个目标类别。所测试的骨干网络为 VGG-CNN-M-1024 和 VGG-16。

结果见表 5，研究员也额外比较了 soft-NMS 和二次无约束二元优化（QUBO）。QUBO 的结果包含 greedy 求解器和经典的 tabu 求解器（二者的惩罚项都经过了人工调整，以得到更好的性能）。可以看到，QUBO 比标准 NMS 要差得多，尽管有研究认为其在行人检测上效果更好。研究者猜测 QUBO 更擅长检测行人的原因是此时边界框遮挡的情况更多。

表 5：不同方法在 PASCAL VOC 2007 上的结果

结论

大规模目标检测数据集中的不确定性可能有碍当前最佳目标检测器的表现。分类置信度并不总是与定位置信度强烈相关。这篇论文提出了一种全新的带有不确定性的边界框回归损失，可用于学习更准确的目标定位。使用 KL 损失进行训练，网络可学习预测每个坐标的定位方差。所得到的方差可实现方差投票，从而优化所选择的边界框。实验结果也表明了这些新方法的有效性。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

函数

函数

+关注

关注
3

文章
4359

浏览量
63482
计算机视觉

计算机视觉

+关注

关注
8

文章
1703

浏览量
46336
数据集

数据集

+关注

关注
4

文章
1217

浏览量
25086

原文标题：CVPR 2019 | 旷视研究院提出新型损失函数：改善边界框模糊问题

文章出处：【微信号：megvii，微信公众号：旷视MEGVII】欢迎添加关注！文章转载请注明出处。

如何创造可信任的机器学习模型？先要理解不确定性

来源：机器之心编译作者：Eric Jang 不确定性是机器学习领域内一个重要的研究主题，Eric Jang近日的一篇博客对这一主题进行了详

发表于 01-10 10:42 •1078次阅读

如何创造可信任的机器<b class='flag-5'>学习</b>模型？先要理解<b class='flag-5'>不确定性</b>

去嵌入和不确定性是否使用了正确的设置

大家好，所以我遇到的问题是确定用于测试夹具纠错过程的适配器特征的不确定性。我们将使用适配器及其s2p文件对测试夹具中的所有信号路径进行路径表征，然后移除以进行性能测试。这个过程在不确定性

发表于 09-27 15:47

是否可以使用全双端口校准中的S11不确定性来覆盖单端口校准的不确定性？

我们一直在使用Agilent VNA不确定度计算器电子表格，让我们了解我们测量的设备的不确定性。有关单端口校准的问题：目前您必须从电子表格中选择您的VNA（带宽和平均值），然后选择校准类型（全双端口

发表于 12-29 16:32

N5531S TRFL不确定性

我正在尝试使用N5531S（选择550传感器）测量接收器系统测量0到-130dBm的绝对功率水平，然后计算它的不确定性。安捷伦的应用笔记已经提到，不确定度可以使用公式+/-计算（功率计范围2-4

发表于 02-19 15:40

435B-K05输出不确定性

以及将435B-K05的输出结果与UUT功率计的参考输出进行比较来准确测量输出。我反对他们的方法的理由是，通过两次测量，不匹配不确定度和仪表误差不确定性将加倍，更不用说必须包括435B-K05输出

发表于 08-02 14:33

测试系统不确定性分析

测试系统不确定性分析

发表于 09-18 09:19

傅里叶变换与不确定性看了就知道

傅里叶变换与不确定性

发表于 12-30 06:41

基于矩阵分析的一种不确定性推理的数据融合方法

采用不确定性推理的矩阵分析方法,建立了用于目标识别的多传感器数据融合的数学模型. 该模型综合了来自多种不同传感器的基于正态分布的检测数据,通过定义相关系数矩阵来获

发表于 07-04 11:18 •16次下载

基于矩阵分析的一种不确定性推理的数据融合方法

采用不确定性推理的矩阵分析方法,建立了用于目标识别的多传感器数据融合的数学模型.该模型综合了来自多种不同传感器的基于正态分布的检测数据,通过定义相关系数矩阵来获

发表于 07-09 14:16 •28次下载

一种求解动态及不确定性优化问题的新方法

一种求解动态及不确定性优化问题的新方法_刘晓

发表于 01-07 18:56 •0次下载

如何用不确定性解决模型问题

再比如，你想搭建一个模型，要在一系列动物图片中预测哪种动物会吃掉你。假设你在训练时给模型提供的都是狮子和长颈鹿的照片，现在模型看到了一张僵尸照片。由于之前它没有见过僵尸，所以这里的不确定性

发表于 09-07 09:45 •5402次阅读

针对自闭症辅助的不确定性联合组稀疏建模方法

，提出一种新型的不确定性联合组稀疏建模方法JGSI-TSK，并将其用于自闭症的辅助诊断。首先，对原始rs-MRI数据进行预处理和特征提取，得到低维特征数据;然后，基于TSK模糊系统框架，从特征之间的相关性出发，在后件参数

发表于 04-07 11:23 •2次下载

深部目标姿态估计的不确定性量化研究

　　FastUQ 是一种新的用于深部目标姿态估计的快速不确定性量化方法，具有高效、即插即用的特点，支持一类通用的姿态估计任务。这项研究在自主

发表于 04-26 16:18 •1271次阅读

将不确定性感知和姿态回归结合用于自动驾驶车辆定位

提出了一种联合训练姿态估计和不确定性的方法，其具有可靠的不确定性估计和改进的训练稳定性。

发表于 01-30 11:30 •1640次阅读

科技云报到：数字化转型，从不确定性到确定性的关键路径

科技云报到：数字化转型，从不确定性到确定性的关键路径

发表于 11-16 16:52 •553次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一种新的带有不确定性的边界框回归损失，可用于学习更准确的目标定位

评论

如何创造可信任的机器学习模型？先要理解不确定性

去嵌入和不确定性是否使用了正确的设置

是否可以使用全双端口校准中的S11不确定性来覆盖单端口校准的不确定性？

N5531S TRFL不确定性

435B-K05输出不确定性

测试系统不确定性分析

傅里叶变换与不确定性看了就知道

基于矩阵分析的一种不确定性推理的数据融合方法

基于矩阵分析的一种不确定性推理的数据融合方法

一种求解动态及不确定性优化问题的新方法

如何用不确定性解决模型问题

针对自闭症辅助的不确定性联合组稀疏建模方法

深部目标姿态估计的不确定性量化研究

将不确定性感知和姿态回归结合用于自动驾驶车辆定位

科技云报到：数字化转型，从不确定性到确定性的关键路径