0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入解析SAMPro3D的三维场景零样本分割技术

jf_pmFSk4VX 来源:GiantPandaCV 2024-01-26 14:31 次阅读

2. 引言

这篇论文提出了一种创新的3D室内场景分割方法,这在增强现实、机器人技术等领域是一个关键的任务。该任务的核心是从多种3D场景表现形式(如网格或点云)中预测3D物体掩膜。历史上,传统方法在分割训练过程中未遇到的新物体类别时常常遇到困难,这限制了它们在陌生环境中的有效性。

最近的进展,如Segment Anything Model(SAM),在2D图像分割方面显示出潜力,能够在无需额外训练的情况下分割陌生的图像。本文探讨了将SAM原理应用于3D场景分割的可能性,具体研究了是否可以直接将SAM应用于2D帧,以分割3D场景,而无需额外训练。这一探索基于SAM的一个独特特点:它的提示功能,即它接受各种输入类型来指定图像中的分割目标。

作者指出了一个关键挑战:确保同一3D物体在不同帧中的2D分割的一致性。他们观察到,像SAM3D这样的现有方法,它将自动化SAM应用于单个帧,但在不同帧中存在不一致性,导致3D分割效果不佳。另一种方法,SAM-PT,在视频跟踪中效果显著,但在3D场景中失败,因为物体并非始终出现在所有帧中。

为了应对这些挑战,论文提出了一个名为SAMPro3D的新框架,该框架在输入场景中定位3D点作为SAM提示。这些3D提示被投影到2D帧上,确保了跨帧一致的像素提示和相应的掩膜。这种方法确保了同一3D物体在不同视角下的分割掩膜的一致性。

SAMPro3D首先初始化3D提示,使用SAM在各个帧中生成相应的2D掩膜。然后,它根据所有帧中相应掩膜的质量过滤3D提示,优先选择在所有视图中都能产生高质量结果的提示。为了解决部分物体分割的问题,该框架合并了重叠的3D提示,整合信息以实现更全面的分割。SAMPro3D累积跨帧的预测结果,以得出最终的3D分割。值得注意的是,该方法不需要额外的领域特定训练或3D预训练网络,这保持了SAM的零样本能力,是之前方法所不具备的显著优势。

该论文通过广泛的实验验证了SAMPro3D的有效性,展示了它在实现高质量和多样化分割方面的能力,通常甚至超过了人类级别的标注和现有方法。此外,它还展示了在2D分割模型(如HQ-SAM和Mobile-SAM)中的改进可以有效地转化为改进的3D结果。这篇论文为3D室内场景分割引入了一种开创性的方法,巧妙地利用了2D图像分割模型的能力,并将其创新地应用于3D领域。结果是一种强大的、零样本的分割方法,显著推进了3D视觉理解领域的最新发展。

3. 方法

78209588-bb7a-11ee-8b88-92fbcf53809c.png

本文提出的方法名为SAMPro3D,旨在直接应用Segment Anything Model (SAM) 对室内场景的3D点云及其关联的2D帧进行零样本3D场景分割。

3D Prompt Proposal

首先,针对一个3D场景的点云 ,包含 个点,我们使用最远点采样(Furthest-Point Sampling, FPS)从中采样 个点作为初始3D提示 。FPS帮助我们实现了场景中物体的良好覆盖。简化地,我们用 和 分别表示单个输入点和一个3D提示。

接着,我们仅考虑针孔相机配置。具体来说,给定帧 的相机内参矩阵 和世界到相机的外参矩阵 ,我们通过以下公式计算点提示 的对应像素投影 :

其中, 和 分别是 和 的齐次坐标。我们通过深度值执行遮挡测试,以确保当且仅当点 在帧 中可见时,像素 才有效。

然后,在图像帧上执行SAM分割。SAM能接受像素坐标、边界框或掩膜等多种输入,并预测与每个提示相关的分割区域。在我们的框架中,我们将所有计算出的像素坐标用于提示SAM,并在所有帧上获取2D分割掩膜。通过在3D空间中定位提示,源自不同帧但由同一3D提示投影的像素提示将在3D空间中对齐,从而带来帧间一致性。

2D-Guided Prompt Filter

784d69fa-bb7a-11ee-8b88-92fbcf53809c.png

在之前的提示初始化过程中,某些提示可能会生成低质量且冗余的掩膜,这将降低最终结果的质量。为解决这个问题,我们引入了一个机制来“收集所有帧的反馈”。我们首先采用自动化SAM提出的策略在每个单独的帧上过滤提示。基本上,这种策略会消除那些对应掩膜置信度低或与其他掩膜重叠度大的提示。如果一个3D提示 在某帧中有有效的像素投影 ,则它的计数器 会增加。如果该提示在该帧的过滤阶段成功存活,则它的得分 会累积。在评估所有帧后,我们计算保留一个3D提示的概率 ,并在其概率超过预定义阈值 时保留该提示。这个算法使我们能够通过考虑所有2D视图的反馈来"让所有帧都满意"。它优先选择高质量的提示,同时在帧间保持提示的一致性,最终提升3D分割结果。

Prompt Consolidation

有时,由单个3D提示对齐的2D掩膜可能只分割了对象的一部分,因为2D帧的覆盖范围有限。为解决这个问题,我们设计了一个提示合并策略。该策略涉及检查不同3D提示生成的掩膜,并识别它们之间的一定重叠。在这种情况下,我们认为这些提示可能正在分割同一个对象,并将它们合并为单个伪提示。这个过程促进了提示间信息的整合,导致更全面的对象分割。

3D Scene Segmentation

在前面的步骤之后,我们获得了最终的3D提示集合及其在帧间的2D分割掩膜。此外,我们还确保了每个3D对象由单个提示分割,允许提示ID自然地作为对象ID。

为了分割3D场景中的所有点,我们继续将 extit{所有}场景输入点投影到每个分割帧上,并使用以下步骤计算它们的预测:对于场景中的每个单独输入点 ,如果它被投影到帧 中由提示 分割的掩膜区域内,我们将其在该帧中的预测指定为提示ID 。我们累积 在所有帧中的预测,并根据最多次分配给它的提示ID确定其最终预测ID。通过对所有输入点重复此过程,我们可以实现输入场景的完整3D分割。

4. 实验

786c94e2-bb7a-11ee-8b88-92fbcf53809c.png

从这个表格中提供的实验数据中,我们可以得出一些结论关于3D室内场景分割性能。这些数据基于ScanNet200数据集的标注,评价指标是mIoU(mean Intersection over Union),一个常用的衡量图像分割效果的指标。

与其他方法的比较:在mIoU 和mIoU 这两个指标上,我们的方法与其他两个主要对比方法Mask3D和SAM3D相比,表现更优。特别是在mIoU 上,我们的方法达到了82.60%,高于Mask3D的79.03%和SAM3D的74.82%。

过滤和合并提示的重要性:不使用2D引导的提示过滤(w/o Fil.)和不使用提示合并(w/o Con.)的情况下,性能有所下降,这表明这两个步骤对于最终的分割效果是重要的。

提示数量的影响:在不同数量的提示下(即 ),我们的方法表现出相对稳定的性能,其中使用时性能最佳。

投票机制的影响:在提示过滤时使用的两种不同投票机制(soft和top-k)中,soft策略略优于top-k策略,尤其是在mIoU 指标上。

增强SAM的作用:引入HQ-SAM(+HQ.)和Mobile-SAM(+Mob.)后,可以观察到性能提升,尤其是HQ-SAM,它在mIoU 指标上达到了83.19%,显示了进一步优化SAM模型在3D室内场景分割中的潜力。

这些实验结果表明,本文提出的方法在3D室内场景分割任务上具有强大的性能,尤其是在采用2D引导的提示过滤和提示合并策略,以及进一步增强SAM模型时。此外,这些结果还揭示了不同提示数量和投票机制对性能的影响,以及优化3D提示的潜力。

5. 讨论

788905aa-bb7a-11ee-8b88-92fbcf53809c.png

这篇论文在3D室内场景分割领域提出了一种创新的方法,展示了显著的性能提升,尤其是在处理具有挑战性的零样本场景时。其主要优势在于有效地利用了Segment Anything Model(SAM),通过一系列精心设计的步骤,如3D提示提议、2D引导的提示过滤和提示合并策略,来改善3D场景的分割效果。这种方法充分利用了SAM在2D图像分割领域的强大能力,并巧妙地将其扩展到3D场景,显示了跨领域应用的巨大潜力。

特别是,该方法通过3D提示的初始化和精确过滤,确保了3D分割的精度和一致性。此外,通过集成HQ-SAM和Mobile-SAM,该方法进一步提升了其性能,显示了在不断发展的深度学习领域中,通过集成新技术以适应更复杂应用场景的重要性。

然而,该方法也存在一些潜在的限制。首先,尽管实验结果表明该方法在多个指标上表现出色,但它依赖于SAM模型,这可能限制了其在没有大规模预训练数据时的适用性。此外,3D提示的初始化和过滤策略虽然有效,但可能需要显著的计算资源,尤其是在处理大规模或复杂的3D场景时。此外,该方法的泛化能力尚需在更多不同类型的3D场景中进行测试和验证。

综上所述,尽管这篇论文在3D室内场景分割方面取得了显著进展,但其依赖于特定的深度学习模型和可能需要较高计算资源的处理流程,这些因素可能会影响其在实际应用中的广泛可行性。

6. 结论

78a95b8e-bb7a-11ee-8b88-92fbcf53809c.png

总的来说,这篇论文提出了一种创新且有效的方法,用于提升3D室内场景分割的准确度和效率。其通过集成先进的2D图像分割模型并将其扩展到3D领域,展示了显著的性能提升。尽管存在一些潜在的限制,如对预训练数据的依赖和高计算资源需求,但这项工作无疑为3D视觉理解领域带来了新的见解和方法。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    28187

    浏览量

    206421
  • 图像分割
    +关注

    关注

    4

    文章

    182

    浏览量

    17971
  • 增强现实
    +关注

    关注

    1

    文章

    712

    浏览量

    44923

原文标题:三维场景零样本分割新突破:SAMPro3D技术解读

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三维触控技术突破“二向箔”的束缚

    》中被二向箔击中的文明一。很自然地,我们会想到:既然人类生活在三维的空间里,为什么用户与设备的交互只能是在二空间里呢?有没有可能实现三维的交互方法呢?要实现
    发表于 12-19 15:53

    三维快速建模技术三维扫描建模的应用

    相关处理,构建其三维模型和对模型进行纹路映射,最终完成物体的三维模型构建。该三维扫描建模流程方法对复杂物件的三维建模可取得较好的效果。 同时,三维
    发表于 08-07 11:14

    Handyscan三维扫描仪机械部件三维扫描抄数服务

    的样件进行了分析,在和技术沟通完其主要的需求后,我们向客户推荐了这款便携式的Handyscan SAOMIAO3D,CN激光三维扫描仪。 因客户平时测量的是这类圆形产品,需要对其形状和一些孔位进行尺寸
    发表于 07-21 16:52

    SMARTSCAN三维扫描仪电子产品配件三维扫描服务

    后,3天内给出完整的CAD数据。跟据与客户的深入沟通后,我司就采用了这款最新的smartscansaomiao3d,cn桌面型全自动三维扫描仪对工件进行了抄数,并根据扫描后的
    发表于 09-17 16:16

    基于Creator的三维场景优化技术的应用

    高质量的三维场景是虚拟现实系统中重要的组成部分,在三维场景的处理中存在两个主要问题:一是载入场景文件要花费很多时间;二是即使在高性能的PC
    发表于 08-13 10:31 8次下载

    三维立体视觉技术的应用及其三维恢复方法介绍

    感知与建模、机器人导航、双目物体跟踪与检测以及图像分割等领域。 三维立体视觉就是研究由2D图像恢复场景目标即3D信息的一门学科。目前用于
    发表于 10-20 11:51 5次下载

    3D动画技术在计算机三维技术中实现了不断发展

    、建模动画、雕刻渲染、产品宣传等三维动画技术。商迪3D运用Blender软件技术,创作了高质量的三维动画产品拥有着全方面展示作品、随意旋转角度、场景
    发表于 12-25 16:28 989次阅读

    3D三维可视化虚拟现实技术应用于玉雕器皿

    三维可视化技术、VR线上虚拟现实技术、H5三维展示技术3D建模
    发表于 03-26 11:49 846次阅读

    3D建模技术以及智能家具三维模型的展示

    当家居环境中的各类智能家具模型在线上展示,3D建模技术成为家居行业创新的源动力。 商迪3D运用3D建模技术
    的头像 发表于 04-26 17:17 3152次阅读

    基于聚类分析的三维网格分割技术综述

    三维网格分割是计算机图形学的一个重要的研究方向,近年来不断涌现出各种新的分割技术。主要关注基于聚类分析的三维网格
    发表于 04-29 14:15 3次下载
    基于聚类分析的<b class='flag-5'>三维</b>网格<b class='flag-5'>分割</b><b class='flag-5'>技术</b>综述

    工业工厂3D沉浸式三维数字化管理系统

    3D技术改变了很多领域的展示方式,使用户能够沉浸在三维数字化场景当中,并能够音频,图文等互动方式,创建一个全新的三维虚拟空间。商迪
    发表于 09-17 10:40 1168次阅读

    基于三维集成技术的红外探测器

    三维集成技术可分为三维晶圆级封装、基于三维中介层(interposer)的集成、三维堆叠式集成电路(3D
    的头像 发表于 04-25 15:35 1929次阅读

    彩色3D打印仕女图三维扫描数字化3d打印

    教与智能制造部(CASAIM)】的彩色3D打印仕女图及三维扫描数字化服务的解决方案。 三维扫描: 三维扫描是目前还原物品、场景的理想方式,具
    的头像 发表于 02-28 09:52 819次阅读
    彩色<b class='flag-5'>3D</b>打印仕女图<b class='flag-5'>三维</b>扫描数字化<b class='flag-5'>3d</b>打印

    什么是样本学习?为什么要搞样本学习?

    样本分类的技术目前正处于高速发展时期, 所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。 对此, 本文将其称为广义
    发表于 09-22 11:10 2057次阅读
    什么是<b class='flag-5'>零</b><b class='flag-5'>样本</b>学习?为什么要搞<b class='flag-5'>零</b><b class='flag-5'>样本</b>学习?

    3D ToF三维场景距离(景深)测量系统简介

    电子发烧友网站提供《3D ToF三维场景距离(景深)测量系统简介.pdf》资料免费下载
    发表于 09-29 10:55 0次下载
    <b class='flag-5'>3D</b> ToF<b class='flag-5'>三维</b><b class='flag-5'>场景</b>距离(景深)测量系统简介