0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测

CVer 来源:CVer公众号 2023-08-18 15:19 次阅读

本文是对我们ICCV 2023被接收的文章Revisiting Domain-Adaptive 3D Object Detection by Reliable, Diverse and Class-balanced Pseudo-Labeling的介绍。在这个工作中,我们通过生成可靠、多样且类别平衡的伪3D物体,实现了单模型多类别同时自训练,从而将检测器自适应到目标域的三维场景中。很荣幸地,我们的文章被ICCV 2023收录,目前项目代码已开源,欢迎大家试用。

1eda1810-3d8e-11ee-ac96-dac502259ad0.jpg

论文:https://arxiv.org/abs/2307.07944

代码(已开源): https://https://github.com/zhuoxiao-chen/ReDB-DA-3Ddet

概述

随着基于激光雷达(LiDAR)的三维物体检测在机器人系统和自动驾驶汽车等各种应用中不断发展,解决在实际场景中部署检测器所面临的挑战变得愈加重要。主要难题源于训练数据和测试点云数据之间的差异,这些数据通常来自不同的场景、位置、时间和传感器类型,造成了“域差异”。

域差异主要来自于物体差异和环境差异,这些因素会显著降低3D检测器的预测精度。物体差异指的是训练和测试域之间物体的空间分布、点密度和尺度的变化。例如,Waymo数据集中汽车的平均长度与KITTI数据集中的平均长度相差约0.91米。另一方面,环境差异则源自于周围环境的复合差异,如不一致的光束数量、角度、点云范围和数据采集位置。

1eff0ada-3d8e-11ee-ac96-dac502259ad0.jpg

例如,在这个图中,Waymo(右)利用64束激光雷达传感器生成3D场景,而nuScenes(左)则由更稀疏的32束环境和双大束角构成。

重新审视领域自适应3D检测设置。已有的领域自适应3D目标检测方法通常遵循单类别训练设置,即对模型进行训练,使其分别适应每一个类别。虽然同时用所有类别来训练一个模型更为实际和公平,但我们的实证研究表明,在切换到多类别设置时,先前方法的检测性能会显著下降(如下图)。这种平均精度(AP)的下降可以归因于生成的伪标签的质量较差(即错误和冗余),以及稀有类别的较低识别准确率(例如在Waymo中自行车比汽车少91倍)。

1f18cfd8-3d8e-11ee-ac96-dac502259ad0.jpg

将多类别3D检测器通过ST3D的方法进行领域自适应时,平均精度(AP)的降低情况。左图是从nuScenes到KITTI,右图是从Waymo到KITTI。

我们的工作将领域自适应三维检测的设置修正为多类别情景,并提出了一种新颖的ReDB框架,用于在跨域三维目标检测中生成可靠、多样和类平衡的伪标签。在三个大规模测试集上的大量实验证据表明,所提出的ReDB对于基于体素和基于点的现代3D检测器在不同环境下都具有出色的适应性,在nuScenes → KITTI任务中,分别相对于现有最先进的方法提高了20.66%和23.15%的3D mAP。

方法

1f331dfc-3d8e-11ee-ac96-dac502259ad0.jpg

1)总体框架

在第一阶段,3D检测器(例如,SECOND或PointRCNN)在源域上进行预训练,同时使用随机物体缩放(ROS)进行数据增强。在预训练收敛后,即第二阶段,将未标记的目标域点云传递给预训练的检测器,以为目标域的数据生成高置信度的伪标签。具体而言,所产生的伪标签将经过跨域检查(Cross-Domain Examination,简称CDE),并由基于重叠框计数(Overlapped Box Counting,简称OBC)的多样性模块进行下采样,形成可靠且多样化的(RED)的伪标签物体子集。在第三阶段对目标域进行模型自训练时,我们以类平衡的方式在每个点云中随机注入RED目标域物体和源域对象,并且源样本的比例逐渐降低。3D检测器通过在第二阶段和第三阶段之间交替进行,迭代地进行以适应目标域的环境。

2)可靠性:跨域检查(CDE)

为了消除高置信度的错误伪标签并避免自训练中的错误累积,我们引入了一种跨域检查(CDE)策略来评估伪标签的可靠性。在将伪标签的目标域的物体复制到模型所熟悉的源域环境中再进行预测,我们通过目标域和源域中两个预测框之间的一致性,即交并比(Intersection-over-Union,IoU)来衡量伪标签的可靠性。任何 IoU 值较低的物体都将被视为不可靠。为了防止源域和目标域点云之间的点冲突,我们会删除落在将复制伪标签物体区域内的源域点。所提出的CDE策略确保接受的伪标签物体是领域无关的,并且受环境差异的影响较小。

1f51029a-3d8e-11ee-ac96-dac502259ad0.png

1f631430-3d8e-11ee-ac96-dac502259ad0.jpg

所提出的跨域检查(CDE)策略。蓝色点为被复制到源域点云的伪标签物体。红色和黄色框分别表示目标域和源域中的预测框。绿色框为真值,在这里仅作参考。例子一:目标域和源域的预测框之间IoU足够大,该伪标签可靠性被接受;例子二和三:源域中未被检测到,或IoU不够大,该伪标签可靠性不被接受。

3)多样性:基于OBC的下采样

为了避免频繁出现且在尺度上相似的冗余伪标签,必须防止训练的检测器塌陷到一个固定的模式中,这种模式可能只会检测到某些固定模式的物体(如小型汽车),而漏掉其他风格特殊的物体(如公共汽车和卡车)。为了增强几何多样性,我们提出了一个称为"重叠框计数(OBC)"的指标来均匀地下采样伪标签。该度量的设计灵感来自于以下观察:3D检测器倾向于为具有不常见几何形状的物体预测更多的边界框,因为仅使用少量紧密边界框难以定位这些物体。我们将每个检测到的物体周围的回归边界框数目作为OBC,并使用核密度估计(KDE)来估计其经验分布。然后,我们根据 KDE 的反概率进行下采样,从而有效减少了高密度 OBC 区域的伪标签数量,因为这些区域的物体具有相似且频繁的几何形状。通过从多样化的伪标签子集中学习,3D检测器可以更好地识别不同尺度和点密度的物体,潜在地消除物体差异。

1f7a258a-3d8e-11ee-ac96-dac502259ad0.png

1f9248e0-3d8e-11ee-ac96-dac502259ad0.jpg

重叠框计数(OBC)示意图。上半部分显示的是在非极大值抑制(NMS)之前生成的围绕三个具有不同OBC值的正预测物体的预测框。下图展示了所有检测到的物体的 OBC 值分布,以及用于多样下采样的拟合核密度估计(KDE,蓝色)和反向核密度估计(inverse KDE,红色)。

4)平衡性: 类平衡自训练

尽管前两个模块能够选择可靠且多样化(ReD)的伪标签,但仍存在严重的类间不平衡。为了实现类平衡的自训练,我们随机向每个目标域的点云注入伪标签物体,每个类别中的样本数量相等。通过从这种类别平衡的目标域数据中学习,模型能够更好地掌握目标域标签的整体语义。为了实现从源域数据到目标域数据的平滑过渡,我们首先在最初的训练步中以类平衡的方式用真标签(Gound truth)的源域物体来增强目标域数据。然后随着自训练的进行,我们逐渐减少源域物体的比例,增加ReD伪标签的数量。这种渐进式的类平衡自训练使模型能够稳定地适应目标域,增强对频繁出现和罕见类别的识别能力。

1fb56410-3d8e-11ee-ac96-dac502259ad0.png

1fd0aa0e-3d8e-11ee-ac96-dac502259ad0.jpg

实验

1) SECOND在Waymo → KITTI, Waymo → nuScenes 以及nuScenes → KITTI三个领域自适应任务上的结果对比。

1ff9862c-3d8e-11ee-ac96-dac502259ad0.jpg

所提出的ReDB在后两个任务(即 Waymo → nuScenes 和 nuScenes → KITTI)中获得的性能明显高于第一个任务(即 Waymo → KITTI),这表明ReDB对于适应具有较大环境差异的 3D 场景更加有效。更明显的是,ReDB方法在所有类别中的表现都很均衡,而所有baslines方法都偏向于最常出现的类别(即汽车),在罕见类别(即行人和骑车人)中表现不佳。总体而言,在跨域三维目标检测任务的所有场景中,ReDB优于所有baslines方法。

2) SECOND在Waymo → KITTI 以及nuScenes → KITTI 两个领域自适应任务上,用困难指标来评估指标计算的结果对比。

202ada42-3d8e-11ee-ac96-dac502259ad0.jpg

在从 Waymo 自适应到 KITTI 的过程中,所提出的ReDB优于SOTA方法ST3D++ 5.81%的3D mAP 。在更具挑战性的跨域检测任务中(即 nuScenes → KITTI),光束数量、角度和点云范围都会发生显著的环境变化,ReDB比SOTA方法的 mAP 3D 高出 16.55%。因此,当使用KITTI指标的困难难度指标来评估时,我们的方法远远超过了baseline方法,这表明ReDB能够使3D检测器有效地泛化到目标域中困难的物体。

3) PointRCNN在nuScenes → KITTI 任务上结果对比。

20471a0e-3d8e-11ee-ac96-dac502259ad0.jpg

值得注意的是,与MLC-Net和SF-UDA在单类别训练设定下得到的结果相比,我们的多类别方法ReDB甚至取得了更卓越的性能(分别提升了10.02%和19.8%),且这两种方法都是专为基于点的3D检测器设计的。

4) 重叠方框计数(OBC)的案例研究

2062ead6-3d8e-11ee-ac96-dac502259ad0.jpg

我们可以看到,大多数具有较小OBC值(例如,介于5和8之间)的物体通常具备以下特点:(1)通常更接近激光雷达传感器,(2)具有完整的物体形状,(3)通常是小尺寸的物体。这些物体通常具有高度相似且完整的几何特征,构成了数据集的大部分。相反,具有高OBC值的物体在几何表示的一个或多个方面通常具有多样性。在物体尺寸方面,大尺寸物体往往会产生较高的 OBC 分数(如21和26)。除了物体体积外,我们还可以发现明显远离激光雷达中心的物体也会产生较高的 OBC 值(从 16 到 23),而低密度和严重遮挡的物体也会产生较高的 OBC 值,分别为 18 和 19。因此,所提出的OBC指标能够有效地在几何特征的多个维度上量化伪标签的多样性,有助于三维检测器学习更多样化的目标物体分布,从而缓解跨域目标检测中的多维度的物体差异问题。

方法不足与未来展望

尽管我们的方法在性能上相较于以往取得了显著的提升,但在涉及到域差异极大的三维场景(例如Waymo → nuScenes)时,性能仍然受到限制,距离实际应用场景的要求仍有很大差距。除了域差异,另一个限制因素是当前最先进的三维目标检测器在nuScenes数据集上表现受限。因此,近期越来越多的研究方法开始将2D图像与3D点云进行融合,以在nuScenes等困难的数据集上获得更出色的目标检测效果。工业界也在积极探索这一融合策略并投入实际生产应用。

因此,未来的跨域目标检测任务可能需要考虑多模态信息,而不仅仅局限于使用单一的点云数据。这一发展趋势对于实现更全面、鲁棒的目标检测方法具有重要意义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2549

    文章

    50817

    浏览量

    752419
  • 检测器
    +关注

    关注

    1

    文章

    860

    浏览量

    47659
  • 目标检测
    +关注

    关注

    0

    文章

    205

    浏览量

    15595
  • 自动驾驶
    +关注

    关注

    783

    文章

    13716

    浏览量

    166218

原文标题:ICCV 2023 | ReDB:通过可靠、多样和类平衡的伪标签重新审视跨域3D目标检测

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    分享插件3D模型

    分享插件3D模型
    发表于 12-18 21:10

    3D软件中如何应用文本特征?3D文本特征应用技巧

    轮廓的方向;(3)其他情况若是放置于圆弧或曲线时,同样可以通过绘制样条曲线+旋转的方式,对文本轮廓进行重新定位。3、文本特征生成创建文本轮廓后,可使用「拉伸」命令生成
    发表于 04-22 17:28

    3D的“春天”在哪里?

    3D能否实现低成本?本文将为你详细解答这个问题。
    发表于 05-10 07:16

    看看Stream信号里是如何做时钟握手的

    target,hit这种单比特信号的时钟交互来进行信息的交互。基于这对信使,双方各自定义了各自的行动规则作为信号源时钟的gg,自身的targe信号初始值和目标时钟
    发表于 07-07 17:25

    谷歌开发pipeline,在移动设备上可实时计算3D目标检测

    3月13日消息,谷歌宣布推出 MediaPipe Objectron,这是一种适用于日常物体的移动端实时3D目标检测 pipeline,它能够检测
    的头像 发表于 03-13 15:41 2762次阅读

    研究人员通过3D打印开发出更可靠的增强型UHF-RFID标签

    巴塞罗那大学和加泰罗尼亚理工大学的科学家已经设计并3D打印了一种更可靠的增强型UHF-RFID标签
    发表于 10-20 16:59 638次阅读

    3D目标检测是否可以用层级图网络来完成

    电子发烧友网站提供《3D目标检测是否可以用层级图网络来完成.pdf》资料免费下载
    发表于 11-26 16:55 9次下载
    <b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>是否可以用层级图网络来完成

    基于和数据样本双重加权的无监督模型

    无监督适应( Unsupervised Domain Adaptation,UDA)是一新兴的机器学习范式,其通过对源知识在无标记标堿上的迁移利用,来促进
    发表于 04-14 14:05 11次下载
    基于<b class='flag-5'>跨</b><b class='flag-5'>域</b><b class='flag-5'>类</b>和数据样本双重加权的无监督<b class='flag-5'>域</b>模型

    华南理工开源VISTA:双视角空间注意力机制实现3D目标检测SOTA

    我们提出了一种新颖的即插即用融合模块:双视角空间注意力机制 (VISTA),以产生融合良好的多视角特征,以提高 3D 目标检测器的性能。我们提出的 VISTA 用卷积算子代替了 ML
    的头像 发表于 04-07 09:39 1383次阅读

    3D IC制造技术已成主流,异构3D IC还有待进步

    多年来,3D IC技术已从初始阶段发展成为一种成熟的主流制造技术。EDA行业引入了许多工具和技术来帮助设计采用3D IC路径的产品。最近,复杂的SoC实现开始利用3D IC技术来平衡
    发表于 09-16 10:06 1253次阅读

    基于几何单目3D目标检测的密集几何约束深度估计器

    基于几何的单目3D目标检测通过2D-3D投影约束估计目标的位置。具体来说,网络预测
    的头像 发表于 10-09 15:51 923次阅读

    如何利用车载环视相机采集到的图像实现精准的3D目标检测

    如何利用车载环视相机采集到的多张图像实现精准的 3D 目标检测,是自动驾驶感知领域的重要课题之一。
    发表于 07-26 14:11 696次阅读
    如何利用车载环视相机采集到的图像实现精准的<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>

    CCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测

    本文介绍在3D 目标检测领域的新工作:SparseBEV。我们所处的 3D 世界是稀疏的,因此稀疏 3D
    的头像 发表于 09-19 10:00 964次阅读
    CCV 2023 | SparseBEV:高性能、全稀疏的纯视觉<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>器

    如何搞定自动驾驶3D目标检测

    可用于自动驾驶场景下基于图像的3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI
    发表于 01-05 10:43 555次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>!

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2
    的头像 发表于 02-27 16:38 1093次阅读
    Nullmax提出多相机<b class='flag-5'>3D</b><b class='flag-5'>目标</b><b class='flag-5'>检测</b>新方法QAF2<b class='flag-5'>D</b>