0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首个无监督3D点云物体实例分割算法

CVer 来源:CVer 作者:CVer 2022-11-09 15:15 次阅读

在物体部件分割和室内、室外物体分割任务上的效果图(无需任何人工标注):

f6cf184e-5f7f-11ed-8abf-dac502259ad0.gif

1. Introduction

三维点云物体分割是三维场景理解的关键问题之一,也是自动驾驶智能机器人等应用的基础。然而,目前的主流方法都是基于监督学习,需要大量人工标注的数据,而对点云数据进行人工标注是十分耗费时间和人力的。

2. Motivation

本文旨在寻求一种无监督的3D物体分割方法。我们发现,运动信息有望帮助我们实现这一目标。如下图1所示,在左图中的蓝色/橙色圆圈内,一辆汽车上的所有点一起向前运动,而场景中其他的点则保持静止。那么理论上,我们可以基于每个点的运动,将场景中属于汽车的点和其他点分割开,实现右图中的效果。

f9ec989e-5f7f-11ed-8abf-dac502259ad0.png

Figure 1. 利用运动信息分割物体的motivation

利用运动信息分割3D物体的想法已经在一些现有的工作中得到了探索。例如,[1] 和 [2] 利用传统的稀疏子空间聚类的方法从点云序列中分割运动的物体;SLIM [3] 提出了第一个基于学习的方法来分割运动的前景和静止的背景。然而,现有的方法都在以下的一个或多个方面存在局限性:

1)只适用于特定场景,不具备通用性;

2)只能实现运动的前景和静止的背景之间的二类分割,无法进一步区分前景中的多个物体;

3)(几乎所有的现有方法都存在的局限)必须要多帧的点云序列作为输入,而且只能分割出其中在运动的物体。但是理论上,我们利用运动信息学会辨别某些物体之后,当这些物体以静止的状态出现在单帧点云中,我们应该依然能辨别它们。

针对上述问题,我们希望设计一种通用的、能分割多个物体的无监督3D物体分割方法:这种方法在完全无标注的点云序列上进行训练,从运动信息中学习3D物体分割;经过训练后,能够直接在单帧点云上进行物体分割。为此,本文提出了无监督的3D物体分割方法OGC (Object Geometry Consistency)。本文的主要贡献包括以下三点:

1)我们提出了第一个通用的无监督3D物体分割框架OGC,训练过程中无需任何人工标注,从点云序列包含的运动信息中学习;经过训练后能直接在单帧点云上进行物体分割。

2)作为OGC框架的核心,我们以物体在运动中保持几何形状一致作为约束条件,设计了一组损失函数,能够有效地利用运动信息为物体分割提供监督信号

3)我们在物体部件分割和室内、室外物体分割任务上都取得了非常好的效果。

3. Method

3.1 Overview

如下图2所示,我们的框架包括三个部分:

1)一个物体分割网络(橙色部分),从单帧点云估计物体分割mask;

2)一个自监督的场景流估计网络(绿色部分),估计两帧点云之间的运动(场景流);

3)一组损失函数(蓝色部分),利用2)估计出的运动为1)输出的物体分割mask提供监督信号。

在训练过程中,需要三个部分联合工作;在训练后,只需保留1)的物体分割网络,即可用于分割单帧点云。

fa348ee2-5f7f-11ed-8abf-dac502259ad0.png

Figure 2 OGC示意图

对于OGC框架中的物体分割网络和场景流估计网络,我们可以直接利用现有的网络结构,如下图3所示。具体来说:

1)物体分割网络:我们采用PointNet++ [4] 从输入的单帧点云fa5ccda8-5f7f-11ed-8abf-dac502259ad0.png提取特征,然后用Transformer [5] 解码器直接从提取的点云特征估计出所有物体的分割mask,表示为fa697558-5f7f-11ed-8abf-dac502259ad0.png。整个网络结构可以视作最近在2D图像上非常成功的物体分割方法MaskFormer [6] 向3D点云的拓展。

2)场景流估计网络:我们直接采用了最近非常成功的FlowStep3D [5],接收两帧点云fa75626e-5f7f-11ed-8abf-dac502259ad0.png作为输入,估计fa7f66ce-5f7f-11ed-8abf-dac502259ad0.png中的点的运动(场景流)fa8df752-5f7f-11ed-8abf-dac502259ad0.png

fa99cea6-5f7f-11ed-8abf-dac502259ad0.png

Figure 3 OGC结构图

3.2 OGC Losses

OGC框架的关键,就在于如何利用运动信息为物体分割提供监督信号。为此,我们设计了以下损失函数:

1)Dynamic loss:现实世界中大部分物体的运动都可以用刚体变换来描述。因此在这项损失函数中,我们要求对每个估计出的物体分割mask,其中所包含的点的运动必须服从同一个刚体变换:

faaaefec-5f7f-11ed-8abf-dac502259ad0.png

上式中fab8feca-5f7f-11ed-8abf-dac502259ad0.png表示每个物体分割mask上拟合出的刚体变换。如果一个mask实际上包含了两个运动方向不同的物体,这两个物体上点的运动必然不可能服从同一个刚体变换。此时用这两个物体上的点强行拟合出的刚体变换与这些点的实际运动并不一致,这个mask就会被损失函数惩罚。可以看到,dynamic loss能帮助我们区分运动方向不同的物体。但是,如果实际上属于同一个物体的点被分割成两块,即“过度分割”,dynamic loss并不能惩罚这种情况。

2)Smoothness loss:物体上的点在空间中一般都是连接在一起的,否则物体就会断裂。基于这一事实,我们提出了对物体分割mask的平滑性先验,要求一个局部区域内相互邻近的点被分配到同一个物体:

fac9ec62-5f7f-11ed-8abf-dac502259ad0.png

上式中H表示某个点的领域内包含的点的数量。可以看到dynamic loss和smoothness loss起到了相互对抗的效果:前者根据运动方向的不同将点区分开;后者则根据空间中的近邻关系将邻近的点聚合,以抵消潜在的“过度分割”问题。这两项损失函数联合起来,为分割场景中的运动物体提供了充足的监督信号。

3)Invariance loss:我们希望将学习到的运动物体分割充分地泛化到外形相近的静态物体。为此,我们要求物体分割网络在面对处于不同位姿的同一物体时,能够无差别地辨别(分割)该物体。具体来说,我们对同一场景施加两个不同的空间变换(旋转,平移和缩放)fad95bac-5f7f-11ed-8abf-dac502259ad0.pngfae8e752-5f7f-11ed-8abf-dac502259ad0.png,使得场景中物体的位姿都发生变化,然后我们要求场景的分割结果保持不变:

faf5ebe6-5f7f-11ed-8abf-dac502259ad0.png

Invariance loss能有效地将从运动物体学习到的分割策略泛化到不同位姿的静态物体。

3.3 Iterative Optimization

当我们从运动信息中学会了分割物体,理论上我们可以用估计出的物体分割来提升对运动(场景流)的估计质量,随后从更准确的运动信息中更好地学习分割物体。为实现这一目标,我们提出了如下图4所示的“物体分割-运动估计”迭代优化算法:初始阶段,我们通过FlowStep3D网络估计运动。在每一轮中,我们首先从当前估计出的运动信息学习物体分割;随后用我们的Object-aware ICP算法,基于估计出的物体分割来提升对运动的估计质量,将改善后的运动估计送入下一轮。

fb096806-5f7f-11ed-8abf-dac502259ad0.png

Figure 4 “物体分割-运动估计”迭代优化算法示意图

在迭代过程中用到的Object-aware ICP算法,可以看作传统的ICP算法向多物体场景的拓展,算法的具体细节可以参考原文附录A.2。

4. Experiments

Evaluation on Synthetic Datasets

我们首先在SAPIEN数据集和我们在自己合成的OGC-DR / OGC-DRSV数据集上评估了OGC对物体部件分割和室内物体分割任务的效果。从下面两个表格可以看到,在高质量的合成数据集上,OGC不仅领先于传统的无监督运动分割和聚类方法,还达到了接近甚至超越全监督方法的效果。

fb31ac30-5f7f-11ed-8abf-dac502259ad0.png

Figure 5 不同方法在SAPIEN数据集上的定量结果对比

fb56d6b8-5f7f-11ed-8abf-dac502259ad0.png

Figure 6不同方法在OGC-DR/OGC-DRSV数据集上的定量结果对比

Evaluation on Real-World Outdoor Datasets

接下来,我们评估OGC在极具挑战性的室外物体分割任务上的表现。首先,我们在KITTI Scene Flow(KITTI-SF)数据集上进行评估。KITTI-SF包含200对点云用于训练,200单帧点云用于测试。实验结果如下表所示:我们的方法达到了与全监督方法接近的优异性能。

fb984698-5f7f-11ed-8abf-dac502259ad0.png

Figure 7不同方法在KITTI-SF数据集上的定量结果对比

在实际应用中,有时无法收集到包含运动的序列数据,但我们可以将相似场景中训练出的OGC模型泛化过来。这里,我们将上述KITTI-SF数据集上训练好的OGC模型拿来,直接用于分割KITTI Detection(KITTI-Det)和SemanticKITTI数据集中的单帧点云。注意:KITTI-Det和SemanticKITTI中的点云都是通过雷达采集的,比KITTI-SF中双目相机采集的点云稀疏很多,且KITTI-SF(3769帧)和SemanticKITTI(23201帧)的数据规模都远远大于KITTI-SF。实验结果如下面两张表所示:我们在KITTI-SF上训练的OGC模型能直接泛化到稀疏的雷达点云数据,并取得与全监督方法接近的效果。

fbc16bfe-5f7f-11ed-8abf-dac502259ad0.png

Figure 8在KITTI-Det数据集上的定量结果对比(*表示模型在KITTI-SF上训练)

fbe3fcf0-5f7f-11ed-8abf-dac502259ad0.png

Figure 9在SemanticKITTI数据集上的定量结果对比(*表示模型在KITTI-SF上训练)

Ablation Studies

我们在SAPIEN数据集上对OGC框架的核心技术进行了消融实验:

1)损失函数设计:从下方图表可以看到,OGC的三个损失函数结合使用能带来最好的效果。如果移除dynamic loss,所有点会被分到同一物体;如果移除smoothness loss,会出现“过度分割”的问题。

2)迭代优化算法:可以看到,随着迭代轮数增多,更高质量的运动估计确实带来了更好的物体分割表现。

fc08f8ca-5f7f-11ed-8abf-dac502259ad0.png

Figure 10 在SAPIEN数据集上的消融实验(图-左和表-上:损失函数设计;表下:迭代优化算法)

5. Summary

最后总结一下,我们提出了第一个点云上的无监督3D物体分割框架。这个框架的核心是一组基于物体几何形状一致性的损失函数,利用运动信息有效地监督物体分割。我们的方法在完全无标注的点云序列上训练,训练后可以直接用于分割单帧点云,在多种任务场景下都展示出了非常好的效果。未来OGC还可以进一步拓展:

1)当有少量标注数据时,如何将无监督的OGC模型与这些标注数据结合取得更好的性能;

2)当有多帧作为输入时,如何利用多帧信息更好地分割。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    4331

    浏览量

    62593
  • 智能机器人
    +关注

    关注

    17

    文章

    868

    浏览量

    82289
  • 分割算法
    +关注

    关注

    0

    文章

    10

    浏览量

    7196

原文标题:NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    3D线激光轮廓测量仪的关键参数——最大扫码频率

    3D线激光轮廓测量仪采用激光三角测量原理,通过发射激光束并接收反射光,实现对物体表面轮廓的精确三维测量。其核心优势在于能够以高速和高精度捕捉物体表面的微小特征,生成高质量的3D
    的头像 发表于 12-09 16:01 110次阅读

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一张照片,便能迅速打造独一二的3D角色。7月16日,腾讯旗下大模型应用“腾讯元宝”上线了“3D角色梦工厂”玩法,腾讯元宝也是
    的头像 发表于 07-18 11:39 757次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b>生成应用

    神经网络如何用监督算法训练

    标记数据的处理尤为有效,能够充分利用互联网上的海量数据资源。以下将详细探讨神经网络如何用监督算法进行训练,包括常见的监督学习
    的头像 发表于 07-09 18:06 796次阅读

    3D建模的重要内容和应用

    3D建模是一种技术,通过计算机软件创建虚拟三维模型,模拟现实世界中的物体或场景。这项技术广泛应用于建筑设计、电影制作、游戏开发、工程仿真等领域。下面古河科技将介绍一些与3D建模相关的
    的头像 发表于 06-21 14:48 630次阅读

    3D建模的特点和优势都有哪些?

    3D建模是一种用于创建三维对象的过程,它在许多领域都有着广泛的应用,包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河科技将介绍一些关于3D建模的内容详情,包括它的特点、优势以及一些常见
    的头像 发表于 05-13 16:41 2413次阅读

    机器人3D视觉引导系统框架介绍

    通过自主开发的3D扫描仪可获准确并且快速地获取场景的云图像,通过3D识别算法,可实现在对云图中的多种目标
    发表于 04-29 09:31 334次阅读
    机器人<b class='flag-5'>3D</b>视觉引导系统框架介绍

    新质生产力探索| AICG浪潮下的3D打印与3D扫描技术

    随着技术的不断进步,3D打印和3D扫描已经成为现代制造业和设计领域的重要工具。为了深入探讨这些技术的最新发展和应用前景。蘑菇创客空间举办了以《AICG浪潮下的新质生产力》为主题的开放夜活动,邀请
    的头像 发表于 04-01 09:28 418次阅读

    基于深度学习的方法在处理3D进行缺陷分类应用

    背景部分介绍了3D应用领域中公开可访问的数据集的重要性,这些数据集对于分析和比较各种模型至关重要。研究人员专门设计了各种数据集,包括用于3D形状分类、
    的头像 发表于 02-22 16:16 1135次阅读
    基于深度学习的方法在处理<b class='flag-5'>3D</b><b class='flag-5'>点</b><b class='flag-5'>云</b>进行缺陷分类应用

    移动协作机器人的RGB-D感知的端到端处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的端到端流程。该流程包括实例分割、特征匹配和集配准。首先,利用RGB图像进行单视图三维语义场景分割,将2
    发表于 02-21 15:55 693次阅读
    移动协作机器人的RGB-<b class='flag-5'>D</b>感知的端到端处理方案

    探索ICLR‘24 Spotlight中的首个十亿级别3D通用大模型

    Uni3D在少样本部件分割任务上也展示出了卓越的性能。下表结果显示,在各种实验条件下,Uni3D的性能都明显优于Point-BERT等基
    的头像 发表于 01-25 10:10 499次阅读
    探索ICLR‘24 Spotlight中的<b class='flag-5'>首个</b>十亿级别<b class='flag-5'>3D</b>通用大模型

    15倍加速!SuperCluster:最强3D全景分割

    S3DIS Area 5的大规模全景分割结果,共有9.2 M个( 78M预采样)和1863个真实"物"对象。SuperCluster可以在3.3秒内在单块V100 - 32GB GPU上一次推理处理如此大的扫描,并达到50.1
    的头像 发表于 01-22 14:03 653次阅读
    15倍加速!SuperCluster:最强<b class='flag-5'>3D</b><b class='flag-5'>点</b><b class='flag-5'>云</b>全景<b class='flag-5'>分割</b>!

    友思特C系列3D相机:实时3D云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    让协作更便捷,图漾3D工业相机获UR+认证

    本次获得UR+认证的图漾3D机器视觉硬件产品主要为适用于手眼协同的小型化3D工业相机PS及FS系列,紧凑轻巧,高精度大视野,可实时采集三维空间数据,可轻松集成在各类机械臂末端
    的头像 发表于 01-05 17:18 998次阅读
    让协作更便捷,图漾<b class='flag-5'>3D</b>工业相机获UR+认证

    两种应用于3D对象检测的深度学习方法

    随着激光雷达传感器(“光检测和测距”的缩写,有时称为“激光扫描”,现在在一些最新的 iPhone 上可用)或 RGB-D 摄像头(一种 RGB-D 摄像头)的兴起,3D 数据变得越来越广泛。D
    的头像 发表于 01-03 10:32 1094次阅读
    两种应用于<b class='flag-5'>3D</b>对象检测的<b class='flag-5'>点</b><b class='flag-5'>云</b>深度学习方法

    基于3D的多任务模型在板端实现高效部署

    对于自动驾驶应用来说,3D 场景感知至关重要。3D数据就是具有3D特征的数据。一方面,3D
    的头像 发表于 12-28 16:35 1470次阅读
    基于<b class='flag-5'>3D</b><b class='flag-5'>点</b><b class='flag-5'>云</b>的多任务模型在板端实现高效部署