NeurlPS'23开源 | 首个！开放词汇3D实例分割！-电子发烧友网

0. 笔者个人体会

实例分割是CV领域很经典的任务，应用也非常广泛。但一个比较头疼的点是需要预定义类别，训练和测试都只能针对固定的类别。

最近，笔者阅读了一篇NeurlPS 2023开源的方案OpenMask3D，可以根据输入词汇直接分割模型，关键是输入的词汇非常任意，比如"印有花卉图案的扶手椅"，可以很好得跟其他类别区分开。

今天笔者将为大家分享这项工作，当然笔者水平有限，如果有理解不当的地方欢迎大家一起讨论~

1. 效果展示

OpenMask3D声称是第一个开放词汇3D实例分割模型，也就是输入词汇，分割对应的3D实例。神奇的是它甚至可以识别颜色、几何、材料、位置、临近关系等语义信息。比如输入"脚凳"、"上面有一个花瓶的边桌""一个白色的枕头"、"放着花瓶的边桌"、"空垃圾桶"，感觉深度学习越来越偏向人类的思维模式了。

代码已经开源了，感兴趣的小伙伴可以运行代码测试一下。下面来看具体的论文信息。

2. 摘要

我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制，在现实世界的应用程序中，人们可能需要执行由与各种各样的对象相关的新颖、开放的词汇表查询所指导的任务。最近，开放词汇3D场景理解方法已经出现，通过学习场景中每个点的可查询特征来解决这个问题。虽然这种表示可以直接用于执行语义分割，但是现有的方法不能分离多个对象实例。在这项工作中，我们解决了这一限制，并提出了OpenMask3D，这是一个开放词汇三维实例分割的zero-shot方法。在预测的类别不可知的3D实例掩模的指导下，我们的模型通过基于剪辑的图像嵌入的多视图融合来聚集每个掩模的特征。在ScanNet200和Replica上的实验和消融研究表明，OpenMask3D优于其他开放词汇方法，尤其是在长尾分布上。定性实验进一步展示了OpenMask3D基于描述几何图形、启示和材料的自由形式查询来分割对象属性的能力。

3. 算法解析

OpenMask3D声称是第一个开放词汇的3D实例分割模型，其Pipeline由四个步骤组成：

1、输入带位姿的RGB-D和重建的点云；

2、对每个点云计算与类无关的实例Mask；

3、使用预训练的视觉-语言模型CLIP，对每个Mask计算一个特征表示。

4、计算开放词汇的三维实例分段表示，查询概念相关的对象。

类别无关的实例分割怎么做的？

这个方法的关键新颖之处，在于它遵循一个实例mask引导的策略，而现有方法是基于点引导的。具体流程是先使用预训练的3D实例分割模型进行预测，预测得到二进制mask以及对应的类别和置信度。OpenMask3D直接抛弃类别和置信度，将二进制mask送到下游计算mask-特征。

每个实例的Mask-特征怎么计算的？

对每个Mask，首先选择在RGB序列中可见性最好的k个视角。在每个视角内，由3D实例分割投影为2D分割，用SAM（分割一切）优化，再经过裁剪获得仅包括目标的多尺度mask图。之后使用CLIP编码器来获得2D Mask的图像embedding，这些图像级的embedding再根据k个视角聚合得到mask-特征的表征。

k个视角图像是如何计算的呢？

这里是计算的共视得分然后排序，用vis表示投影点云个数，其中第i个mask在第j帧图像的得分为：

直接投影不就得到2D分割了，为啥还要加SAM？

作者认为，直接投影的话目标轮廓非常不准，而且会产生很多噪声，因此使用了之前大火的分割一切模型来优化。这里也不是直接用SAM来分割，而是使用RANSAC采样点+SAM分割的方案，得到置信度最高的2D分割区域。

经过这一步，就将类别无关的实例mask转换为了语言特征，无论是使用文本查询还是图像查询都非常方便。

4. 实验结果

ScanNet200验证集上的定量对比，对比了全监督方案Mask3D，还有另一个开放词汇模型OpenScene。结果显示OpenMask3DAP指标达到最优，尤其是长尾类别，对全监督方案还是有很大差距，这个也能理解。

ScanNet200验证集上的消融实验，对比top k视角选择（也分析k值多少合适）、2D Mask生成（是否使用SAM）、多尺度裁剪对性能的影响。

下面这个实验很有意思，之前的3D实例分割是使用预训练模型生成的，现在作者测试了直接使用3D实例分割真值的效果，后面的流程都一样。结果显示，使用真值后，在长尾类上的精度甚至超越了全监督方案Mask3D 9.1% AP。

定性结果，测试开放词汇3D实例分割性能。借助zero-shot性能，OpenMask3D能够分割"一个绿色的座位"、"印有花卉图案的扶手椅"、"上面没有衣服的床"、"壁纸前的沙发"这样很特殊的目标。而且OpenMask3D还可以识别颜色、纹理、情境、背景等对象属性，这个非常新奇。

OpenMask3D和OpenScene的定性比对比，由于OpenMask3D计算的是embedding和每个对象实例的每个mask特征向量之间的相似性，所以会产生更好的分割边界。这里也推荐「3D视觉工坊」新课程《彻底搞懂基于Open3D的点云处理教程！》。

5. 总结

感觉大模型在场景理解上越来越偏向人类的思维方式了，以前的实例分割只能检测预定义的类别，现在居然可以分割"印有花卉图案的扶手椅"这样的实例，不得不感叹AI的发展速度。OpenMask3D声称是第一个开放词汇的3D实例分割模型，给定任意文本就可以查询3D目标，甚至可以识别几何信息、材料、颜色、位置关系这种语义信息，关键还是zero-shot的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2875

浏览量
107480
AI

AI

+关注

关注
87

文章
30728

浏览量
268885
大模型

大模型

+关注

关注
2

文章
2423

浏览量
2640

原文标题：NeurlPS'23开源 | 首个！开放词汇3D实例分割！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

【原创&整理】Altium 常用3D设计封装库

本帖最后由 first-tech 于 2013-4-3 23:28 编辑 Altium designer 3D设计应用越来越广，应网友要求，在此发布常用的3D设计封装库，欢迎大家

发表于 04-03 15:28

分享一些开源3D打印创新

嵌入式顶级程序员开源继续推动3D打印行业的快速创新。如果您停下来想一想，这很有道理-存在3D打印机可以做其他事情。将这一理念与免费软件和开源硬件相结合，可以帮助其他人参与改进其制

发表于 12-21 07:27

3D视频目标分割与快速跟踪

3D视频目标分割与快速跟踪_朱仲杰

发表于 01-07 16:00 •0次下载

腾讯医疗AI开源模型让3D医疗应用性能提升

腾讯优图首个医疗AI深度学习预训练模型MedicalNet正式对外开源。据称，这是全球第一个提供多种3D医疗影像专用预训练模型的项目，将为全球医疗AI发展提供基础。

发表于 08-09 09:17 •1362次阅读

3D的感知技术及实践

测量表面法向量估计几何测量平面提取 3D重建从离散点云得到光滑曲面 3D重建ICP点云配准 3D重建SDF表面重建应用例子：从稀疏的点云中，构造出可以3D打印的模型

发表于 10-23 09:40 •3225次阅读

世界首座3D打印钢桥正式开放

音圈模组3D打印的钢桥开放啦。大家都知道，荷兰首都阿姆斯特丹以其历史建筑、运河和桥梁闻名于世，也是了世界上the first由3D打印的钢桥。近日，这座桥已经向公众开放啦。

发表于 08-11 17:34 •460次阅读

灯塔3D打印和Arduino开源分享

电子发烧友网站提供《灯塔3D打印和Arduino开源分享.zip》资料免费下载

发表于 11-02 09:29 •0次下载

灯塔<b class='flag-5'>3D</b>打印和Arduino<b class='flag-5'>开源</b>分享

首个无监督3D点云物体实例分割算法

本文旨在寻求一种无监督的3D物体分割方法。我们发现，运动信息有望帮助我们实现这一目标。如下图1所示，在左图中的蓝色/橙色圆圈内，一辆汽车上的所有点一起向前运动，而场景中其他的点则保持静止。那么理论上，我们可以基于每个点的运动，将场景中属于汽车的点和其他点

发表于 11-09 15:15 •2393次阅读

自研软件赋能弹性体3D打印！清锋LuxStudio&amp;amp;LuxFlow让用户3D打印游刃有余

导语：基于领先全球的3D打印柔性材料EM⁺23弹性材料，以及超高速光固化3D打印机iLuxPro及Lux3+，通过LuxStudio晶格设计&amp

发表于 02-17 10:23 •724次阅读

定制笛卡尔3D打印机开源分享

电子发烧友网站提供《定制笛卡尔3D打印机开源分享.zip》资料免费下载

发表于 06-26 11:33 •0次下载

3D打印底盘开源分享

电子发烧友网站提供《3D打印底盘开源分享.zip》资料免费下载

发表于 07-06 14:43 •1次下载

CVPR 2023 | 华科&amp;amp;MSRA新作：基于CLIP的轻量级开放词汇语义分割架构

本文提出了 SAN 框架，用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程，并最大化地采用冻结的 CLIP 模型。简介本文介绍了一种名为Side

发表于 07-10 10:05 •1072次阅读

NeurlPS&;apos;23开源 | 大规模室外NeRF也可以实时渲染

神经辐射场 (NeRF)是一种新颖的隐式三维重建方法，显示出巨大的潜力，受到越来越多的关注。它能够仅从一组照片中重建3D场景。然而，它的实时渲染能力，尤其是对于大规模场景的交互式实时渲染，仍然具有显著的局限性。

发表于 11-08 16:41 •1019次阅读

基于深度学习的3D点云实例分割方法

3D实例分割（3DIS）是3D领域深度学习的核心问题。给定由点云表示的 3D 场景，我们寻求为每

发表于 11-13 10:34 •2317次阅读

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。

发表于 12-12 11:23 •801次阅读