深入解析SAMPro3D的三维场景零样本分割技术-电子发烧友网

2. 引言

这篇论文提出了一种创新的3D室内场景分割方法，这在增强现实、机器人技术等领域是一个关键的任务。该任务的核心是从多种3D场景表现形式（如网格或点云）中预测3D物体掩膜。历史上，传统方法在分割训练过程中未遇到的新物体类别时常常遇到困难，这限制了它们在陌生环境中的有效性。

最近的进展，如Segment Anything Model（SAM），在2D图像分割方面显示出潜力，能够在无需额外训练的情况下分割陌生的图像。本文探讨了将SAM原理应用于3D场景分割的可能性，具体研究了是否可以直接将SAM应用于2D帧，以分割3D场景，而无需额外训练。这一探索基于SAM的一个独特特点：它的提示功能，即它接受各种输入类型来指定图像中的分割目标。

作者指出了一个关键挑战：确保同一3D物体在不同帧中的2D分割的一致性。他们观察到，像SAM3D这样的现有方法，它将自动化SAM应用于单个帧，但在不同帧中存在不一致性，导致3D分割效果不佳。另一种方法，SAM-PT，在视频跟踪中效果显著，但在3D场景中失败，因为物体并非始终出现在所有帧中。

为了应对这些挑战，论文提出了一个名为SAMPro3D的新框架，该框架在输入场景中定位3D点作为SAM提示。这些3D提示被投影到2D帧上，确保了跨帧一致的像素提示和相应的掩膜。这种方法确保了同一3D物体在不同视角下的分割掩膜的一致性。

SAMPro3D首先初始化3D提示，使用SAM在各个帧中生成相应的2D掩膜。然后，它根据所有帧中相应掩膜的质量过滤3D提示，优先选择在所有视图中都能产生高质量结果的提示。为了解决部分物体分割的问题，该框架合并了重叠的3D提示，整合信息以实现更全面的分割。SAMPro3D累积跨帧的预测结果，以得出最终的3D分割。值得注意的是，该方法不需要额外的领域特定训练或3D预训练网络，这保持了SAM的零样本能力，是之前方法所不具备的显著优势。

该论文通过广泛的实验验证了SAMPro3D的有效性，展示了它在实现高质量和多样化分割方面的能力，通常甚至超过了人类级别的标注和现有方法。此外，它还展示了在2D分割模型（如HQ-SAM和Mobile-SAM）中的改进可以有效地转化为改进的3D结果。这篇论文为3D室内场景分割引入了一种开创性的方法，巧妙地利用了2D图像分割模型的能力，并将其创新地应用于3D领域。结果是一种强大的、零样本的分割方法，显著推进了3D视觉理解领域的最新发展。

3. 方法

本文提出的方法名为SAMPro3D，旨在直接应用Segment Anything Model (SAM) 对室内场景的3D点云及其关联的2D帧进行零样本3D场景分割。

3D Prompt Proposal

首先，针对一个3D场景的点云，包含个点，我们使用最远点采样（Furthest-Point Sampling, FPS）从中采样个点作为初始3D提示。FPS帮助我们实现了场景中物体的良好覆盖。简化地，我们用和分别表示单个输入点和一个3D提示。

接着，我们仅考虑针孔相机配置。具体来说，给定帧的相机内参矩阵和世界到相机的外参矩阵，我们通过以下公式计算点提示的对应像素投影：

其中，和分别是和的齐次坐标。我们通过深度值执行遮挡测试，以确保当且仅当点在帧中可见时，像素才有效。

然后，在图像帧上执行SAM分割。SAM能接受像素坐标、边界框或掩膜等多种输入，并预测与每个提示相关的分割区域。在我们的框架中，我们将所有计算出的像素坐标用于提示SAM，并在所有帧上获取2D分割掩膜。通过在3D空间中定位提示，源自不同帧但由同一3D提示投影的像素提示将在3D空间中对齐，从而带来帧间一致性。

2D-Guided Prompt Filter

在之前的提示初始化过程中，某些提示可能会生成低质量且冗余的掩膜，这将降低最终结果的质量。为解决这个问题，我们引入了一个机制来“收集所有帧的反馈”。我们首先采用自动化SAM提出的策略在每个单独的帧上过滤提示。基本上，这种策略会消除那些对应掩膜置信度低或与其他掩膜重叠度大的提示。如果一个3D提示在某帧中有有效的像素投影，则它的计数器会增加。如果该提示在该帧的过滤阶段成功存活，则它的得分会累积。在评估所有帧后，我们计算保留一个3D提示的概率，并在其概率超过预定义阈值时保留该提示。这个算法使我们能够通过考虑所有2D视图的反馈来"让所有帧都满意"。它优先选择高质量的提示，同时在帧间保持提示的一致性，最终提升3D分割结果。

Prompt Consolidation

有时，由单个3D提示对齐的2D掩膜可能只分割了对象的一部分，因为2D帧的覆盖范围有限。为解决这个问题，我们设计了一个提示合并策略。该策略涉及检查不同3D提示生成的掩膜，并识别它们之间的一定重叠。在这种情况下，我们认为这些提示可能正在分割同一个对象，并将它们合并为单个伪提示。这个过程促进了提示间信息的整合，导致更全面的对象分割。

3D Scene Segmentation

在前面的步骤之后，我们获得了最终的3D提示集合及其在帧间的2D分割掩膜。此外，我们还确保了每个3D对象由单个提示分割，允许提示ID自然地作为对象ID。

为了分割3D场景中的所有点，我们继续将 extit{所有}场景输入点投影到每个分割帧上，并使用以下步骤计算它们的预测：对于场景中的每个单独输入点，如果它被投影到帧中由提示分割的掩膜区域内，我们将其在该帧中的预测指定为提示ID 。我们累积在所有帧中的预测，并根据最多次分配给它的提示ID确定其最终预测ID。通过对所有输入点重复此过程，我们可以实现输入场景的完整3D分割。

4. 实验

从这个表格中提供的实验数据中，我们可以得出一些结论关于3D室内场景分割性能。这些数据基于ScanNet200数据集的标注，评价指标是mIoU（mean Intersection over Union），一个常用的衡量图像分割效果的指标。

与其他方法的比较：在mIoU 和mIoU 这两个指标上，我们的方法与其他两个主要对比方法Mask3D和SAM3D相比，表现更优。特别是在mIoU 上，我们的方法达到了82.60%，高于Mask3D的79.03%和SAM3D的74.82%。

过滤和合并提示的重要性：不使用2D引导的提示过滤（w/o Fil.）和不使用提示合并（w/o Con.）的情况下，性能有所下降，这表明这两个步骤对于最终的分割效果是重要的。

提示数量的影响：在不同数量的提示下（即），我们的方法表现出相对稳定的性能，其中使用时性能最佳。

投票机制的影响：在提示过滤时使用的两种不同投票机制（soft和top-k）中，soft策略略优于top-k策略，尤其是在mIoU 指标上。

增强SAM的作用：引入HQ-SAM（+HQ.）和Mobile-SAM（+Mob.）后，可以观察到性能提升，尤其是HQ-SAM，它在mIoU 指标上达到了83.19%，显示了进一步优化SAM模型在3D室内场景分割中的潜力。

这些实验结果表明，本文提出的方法在3D室内场景分割任务上具有强大的性能，尤其是在采用2D引导的提示过滤和提示合并策略，以及进一步增强SAM模型时。此外，这些结果还揭示了不同提示数量和投票机制对性能的影响，以及优化3D提示的潜力。

5. 讨论

这篇论文在3D室内场景分割领域提出了一种创新的方法，展示了显著的性能提升，尤其是在处理具有挑战性的零样本场景时。其主要优势在于有效地利用了Segment Anything Model（SAM），通过一系列精心设计的步骤，如3D提示提议、2D引导的提示过滤和提示合并策略，来改善3D场景的分割效果。这种方法充分利用了SAM在2D图像分割领域的强大能力，并巧妙地将其扩展到3D场景，显示了跨领域应用的巨大潜力。

特别是，该方法通过3D提示的初始化和精确过滤，确保了3D分割的精度和一致性。此外，通过集成HQ-SAM和Mobile-SAM，该方法进一步提升了其性能，显示了在不断发展的深度学习领域中，通过集成新技术以适应更复杂应用场景的重要性。

然而，该方法也存在一些潜在的限制。首先，尽管实验结果表明该方法在多个指标上表现出色，但它依赖于SAM模型，这可能限制了其在没有大规模预训练数据时的适用性。此外，3D提示的初始化和过滤策略虽然有效，但可能需要显著的计算资源，尤其是在处理大规模或复杂的3D场景时。此外，该方法的泛化能力尚需在更多不同类型的3D场景中进行测试和验证。

综上所述，尽管这篇论文在3D室内场景分割方面取得了显著进展，但其依赖于特定的深度学习模型和可能需要较高计算资源的处理流程，这些因素可能会影响其在实际应用中的广泛可行性。

6. 结论

总的来说，这篇论文提出了一种创新且有效的方法，用于提升3D室内场景分割的准确度和效率。其通过集成先进的2D图像分割模型并将其扩展到3D领域，展示了显著的性能提升。尽管存在一些潜在的限制，如对预训练数据的依赖和高计算资源需求，但这项工作无疑为3D视觉理解领域带来了新的见解和方法。

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
212

文章
28872

浏览量
209482
图像分割

图像分割

+关注

关注
4

文章
182

浏览量
18078
增强现实

增强现实

+关注

关注
1

文章
717

浏览量
45128

原文标题：三维场景零样本分割新突破：SAMPro3D技术解读

文章出处：【微信号：GiantPandaCV，微信公众号：GiantPandaCV】欢迎添加关注！文章转载请注明出处。

三维触控技术突破“二向箔”的束缚

》中被二向箔击中的文明一样。很自然地，我们会想到：既然人类生活在三维的空间里，为什么用户与设备的交互只能是在二维空间里呢？有没有可能实现三维的交互方法呢？要实现

发表于 12-19 15:53

三维快速建模技术与三维扫描建模的应用

相关处理，构建其三维模型和对模型进行纹路映射，最终完成物体的三维模型构建。该三维扫描建模流程方法对复杂物件的三维建模可取得较好的效果。同时，三维

发表于 08-07 11:14

Handyscan三维扫描仪机械零部件三维扫描抄数服务

的样件进行了分析，在和技术沟通完其主要的需求后，我们向客户推荐了这款便携式的Handyscan SAOMIAO3D,CN激光三维扫描仪。因客户平时测量的是这类圆形产品，需要对其形状和一些孔位进行尺寸

发表于 07-21 16:52

SMARTSCAN三维扫描仪电子产品配件三维扫描服务

后，3天内给出完整的CAD数据。跟据与客户的深入沟通后，我司就采用了这款最新的smartscansaomiao3d,cn桌面型全自动三维扫描仪对工件进行了抄数，并根据扫描后的

发表于 09-17 16:16

基于Creator的三维场景优化技术的应用

高质量的三维场景是虚拟现实系统中重要的组成部分，在三维场景的处理中存在两个主要问题：一是载入场景文件要花费很多时间；二是即使在高性能的PC

发表于 08-13 10:31 •8次下载

三维立体视觉技术的应用及其三维恢复方法介绍

感知与建模、机器人导航、双目物体跟踪与检测以及图像分割等领域。三维立体视觉就是研究由2D图像恢复场景目标即3D信息的一门学科。目前用于

发表于 10-20 11:51 •5次下载

3D动画技术在计算机三维技术中实现了不断发展

、建模动画、雕刻渲染、产品宣传等三维动画技术。商迪3D运用Blender软件技术，创作了高质量的三维动画产品拥有着全方面展示作品、随意旋转角度、场景

发表于 12-25 16:28 •1046次阅读

3D三维可视化虚拟现实技术应用于玉雕器皿

三维可视化技术、VR线上虚拟现实技术、H5三维展示技术、3D建模

发表于 03-26 11:49 •906次阅读

3D建模技术以及智能家具三维模型的展示

当家居环境中的各类智能家具模型在线上展示，3D建模技术成为家居行业创新的源动力。商迪3D运用3D建模技术、

发表于 04-26 17:17 •3268次阅读

基于聚类分析的三维网格分割技术综述

三维网格分割是计算机图形学的一个重要的研究方向，近年来不断涌现出各种新的分割技术。主要关注基于聚类分析的三维网格

发表于 04-29 14:15 •3次下载

工业工厂3D沉浸式三维数字化管理系统

3D技术改变了很多领域的展示方式，使用户能够沉浸在三维数字化场景当中，并能够音频，图文等互动方式，创建一个全新的三维虚拟空间。商迪

发表于 09-17 10:40 •1221次阅读

基于三维集成技术的红外探测器

三维集成技术可分为三维晶圆级封装、基于三维中介层（interposer）的集成、三维堆叠式集成电路（3D

发表于 04-25 15:35 •2132次阅读

彩色3D打印仕女图三维扫描数字化3d打印

教与智能制造部（CASAIM）】的彩色3D打印仕女图及三维扫描数字化服务的解决方案。三维扫描：三维扫描是目前还原物品、场景的理想方式，具

发表于 02-28 09:52 •946次阅读

什么是零样本学习？为什么要搞零样本学习？

零样本分类的技术目前正处于高速发展时期，所涉及的具体应用已经从最初的图像分类任务扩展到了其他计算机视觉任务乃至自然语言处理等多个相关领域。对此，本文将其称为广义零

发表于 09-22 11:10 •2452次阅读

3D ToF三维场景距离(景深)测量系统简介

电子发烧友网站提供《3D ToF三维场景距离(景深)测量系统简介.pdf》资料免费下载

发表于 09-29 10:55 •0次下载

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

深入解析SAMPro3D的三维场景零样本分割技术

评论

三维触控技术突破“二向箔”的束缚

三维快速建模技术与三维扫描建模的应用

Handyscan三维扫描仪机械零部件三维扫描抄数服务

SMARTSCAN三维扫描仪电子产品配件三维扫描服务

基于Creator的三维场景优化技术的应用

三维立体视觉技术的应用及其三维恢复方法介绍

3D动画技术在计算机三维技术中实现了不断发展

3D三维可视化虚拟现实技术应用于玉雕器皿

3D建模技术以及智能家具三维模型的展示

基于聚类分析的三维网格分割技术综述

工业工厂3D沉浸式三维数字化管理系统

基于三维集成技术的红外探测器

彩色3D打印仕女图三维扫描数字化3d打印

什么是零样本学习？为什么要搞零样本学习？

3D ToF三维场景距离(景深)测量系统简介