0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用CLIP 的2D 图像-文本预习知识进行3D场景理解

3D视觉工坊 来源:3D视觉工坊 2023-10-29 16:54 次阅读

前言:

3D场景理解是自动驾驶机器人导航等领域的基础。当前基于深度学习的方法在3D点云数据上表现出了十分出色的性能。然而,一些缺点阻碍了它们在现实世界中的应用。第一个原因是他们严重依赖大量的带注释点云,尤其是当高质量的3D注释获取成本高昂时。此外,他们通常不能识别训练数据中从未见过的新物体。因此,可能需要额外的注释工作来训练模型识别这些新的对象,这既繁琐又费时。

OpenAI的CLIP为缓解2D视觉中的上述问题提供了一个新的视角。该方法利用网站上大规模免费提供的图文对进行训练,建立视觉语言关联,以实现有前景的开放词汇识别。基于此,MaskCLIP做了基于CLIP的2D图像语义分割的扩展工作。在对CLIP预训练网络进行最小修改的情况下,MaskCLIP可以直接用于新对象的语义分割,而无需额外的训练工作。PointCLIP将CLIP的样本分类问题从2D图像推广到3D点云。它将点云框架透视投影到2D深度图的不同视图中,以弥合图像和点云之间的模态间隙。上述研究表明了CLIP在2D分割和3D分类性能方面的潜力。然而,CLIP是否可以及如何有利于3D场景理解仍有待探索。

本文探讨了如何利用 CLIP 的2D 图像-文本预习知识进行3D 场景理解。作者提出了一个新的语义驱动的跨模态对比学习框架,它充分利用 CLIP 的语义和视觉信息来规范3D 网络。

作者主要的贡献如下:

1、作者是第一个将CLIP知识提炼到3D网络中用于3D场景理解的。

2、作者提出了一种新的语义驱动的跨模态对比学习框架,该框架通过时空和语义一致性正则化来预训练3D网络。

3、作者提出了提出了一种新的语义引导的时空一致性正则化,该正则化强制时间相干点云特征与其对应的图像特征之间的一致性。

4、该方法首次在无注释的三维场景分割中取得了良好的效果。当使用标记数据进行微调时,本文的方法显著优于最先进的自监督方法。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

相关工作:

三维零样本学习:

零样本学习(ZSL)的目标是识别训练集中看不见的对象。但是目前的方法主要都是基于2D识别的任务,对三维领域执行ZSL的研究特别有限。本文进一步研究了 CLIP 中丰富的语义和视觉知识对三维语义分割任务的影响。

自监督表征学习:

自我监督学习的目的是获得有利于下游任务的良好表现。主流的方法是使用对比学习来与训练网络。受CLIP成功的启发,利用CLIP的预训练模型来完成下游任务引起了广泛的关注。本文利用图像文本预先训练的CLIP知识来帮助理解3D场景。

跨模式知识蒸馏:

近年来,越来越多的研究集中于将二维图像中的知识转化为三维点云进行自监督表示学习。本文首先尝试利用 CLIP 的知识对一个三维网络进行预训练。

具体方法:

本文研究了用于3D场景理解的CLIP的跨模态知识转移,称为CLIP2Scene。本文的工作是利用CLIP知识进行3D场景理解的先驱。本文的方法由三个主要组成部分组成:语义一致性正则化、语义引导的时空一致性规则化和可切换的自我训练策略。

66151314-7633-11ee-939d-92fbcf53809c.png

图1 语义驱动的跨模态对比学习图解。首先,本文分别通过文本编码器、图像编码器和点编码器获得文本嵌入、图像像素特征和点特征。本文利用CLIP知识来构建用于对比学习的正样本和负样本。这样就得到了点-文本对和短时间内的所有像素点文本对。因此,和分别用于语义一致性正则化和时空一致性规则化。最后,通过将点特征拉到其相应的文本嵌入来执行语义一致性正则化,并通过将时间上相干的点特征模仿到其对应的像素特征来执行时空一致性正则化。

CLIP2Scene

语义一致性正则化

由于CLIP是在2D图像和文本上预先训练的,作者首先关注的是2D图像和3D点云之间的对应关系。具体的,使用既可以获得图像和点云的因此,可以相应地获得密集的像素-点对应,其中和表示第i个成对的图像特征和点特征,它们分别由CLIP的图像编码器和3D网络提取。M是对数。

661e7012-7633-11ee-939d-92fbcf53809c.png

图2 图像像素到文本映射的图示。密集像素-文本对应关系是通过MaskCLIP的方法提出的。

本文提出了一种利用CLIP的语义信息的语义一致性正则化。具体而言,本文通过遵循off-the-shelf方法MaskCLIP(图2)生成密集像素文本对,其中是从CLIP的文本编码器生成的文本嵌入。请注意,像素文本映射可从CLIP免费获得,无需任何额外的训练。然后,我们将像素文本对转换为点文本对,并利用文本语义来选择正点样本和负点样本进行对比学习。目标函数如下:其中,代表由第个类名生成,并且是类别的数量。表示标量积运算,是温度项()。由于文本是由放置在预定义的模板中的类名组成,因此文本嵌入表示相应的类的语义信息。因此那些具有相同语义的点将被限制在相同的文本嵌入附近,而那些具有不同语义的点将被推开。为此,语义一致性正则化会减少对比学习中的冲突。

语义引导的时空一致性正则化

除了语义一致性正则化之外,本文还考虑图像像素特征如何帮助正则化3D网络。自然替代直接引入点特征及其在嵌入空间中的对应像素。然而,图像像素的噪声语义和不完美的像素点映射阻碍了下游任务的性能。为此,提出了一种新的语义引导的时空一致性正则化方法,通过对局部空间和时间内的点施加软约束来缓解这一问题。

具体地,给定图像和时间相干LiDAR点云,其中,是秒内扫描的次数。值得注意的是图像与像素点对的点云第一帧进行匹配。本文通过校准矩阵将点云的其余部分配准到第一帧,并将它们映射到图像上(图3)。

66259144-7633-11ee-939d-92fbcf53809c.png

图3 图像像素到点映射(左)和语义引导的融合特征生成(右)示意图。本文建立了在秒内图像和时间相干激光雷达点云之间的网格对应关系,并且生成语义引到的融合特征。和用于执行时空一致性正则化。

因此,我们在短时间内获得所有像素点文本对。接下来,作者将整个缝合的点云划分为规则网格,其中时间相干点位于同一网格中。本文通过以下目标函数在各个网格内施加时空一致性约束:

其中,代表像素-点对位于第个网格。是一种语义引导的跨模态融合特征,由以下公式表示:

其中和是注意力权重是由以下来计算的:

其中代表温度项。实际上,局部网格内的那些像素和点特征被限制在动态中心附近。因此,这种软约束减轻了噪声预测和校准误差问题。同时,它对时间相干点特征进行了时空正则化处理。

实验

数据集的选择:两个室外数据集 SemanticKITTI 和 nuScenes一个室内数据集 ScanNet

无注释语义分割

662985ce-7633-11ee-939d-92fbcf53809c.png

662cf588-7633-11ee-939d-92fbcf53809c.png

表2 是针对不同数据集的无注释的3D语义分割的性能表3 是无注释三维语义分割的nuScenes数据集消融研究。这里也推荐「3D视觉工坊」新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》

高效注释的语义分割

如表1所示,当对1%和100%nuScenes数据集进行微调时,该方法显著优于最先进的方法,分别提高了8.1%和1.1%。与随机初始化相比,改进幅度分别为14.1%和2.4%,表明了本文的语义驱动跨模态对比学习框架的有效性。定性结果如图4所示。此外,本文还验证了该方法的跨域泛化能力。

663d9618-7633-11ee-939d-92fbcf53809c.png

66529518-7633-11ee-939d-92fbcf53809c.png

图4 对1%nuScenes数据集进行微调的定性结果。从第一行到最后一行分别是输入激光雷达扫描、真值、SLidR预测和我们的预测。请注意,我们通过误差图显示结果,其中红点表示错误的预测。显然,本文的方法取得了不错的性能。

结论

在这项名为CLIP2Scene的工作中,作者探讨了CLIP知识如何有助于3D场景理解。为了有效地将CLIP的图像和文本特征转移到3D网络中,作者提出了一种新的语义驱动的跨模态对比学习框架,包括语义正则化和时空正则化。作者的预训练3D网络首次以良好的性能实现了无注释的3D语义分割。此外,当使用标记数据进行微调时,我们的方法显著优于最先进的自监督方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107486
  • 模型
    +关注

    关注

    1

    文章

    3226

    浏览量

    48809
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6664
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121113

原文标题:结论

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    UV光固化技术在3D打印中的应用

    UV光固化3D打印技术凭借高精度、快速打印环保优势,在工业设计等领域广泛应用。SLA、DLP及CLIP技术各具特色,推动3D打印向高速、高精度发展。
    的头像 发表于 11-15 09:35 355次阅读
    UV光固化技术在<b class='flag-5'>3D</b>打印中的应用

    3D封装热设计:挑战与机遇并存

    随着半导体技术的不断发展,芯片封装技术也在持续进步。目前,2D封装和3D封装是两种主流的封装技术。这两种封装技术在散热路径和热设计方面有着各自的特点和挑战。本文将深入探讨2D封装和3D
    的头像 发表于 07-25 09:46 1402次阅读
    <b class='flag-5'>3D</b>封装热设计:挑战与机遇并存

    苏州吴中区多色PCB板元器件3D视觉检测技术

    3D视觉检测相较于2D视觉检测,有其独特的优势,不受产品表面对比度影响,精确检出产品形状,可以测出高度(厚度)、体积、平整度等。在实际应用中可以与2D结合做检测。利用
    的头像 发表于 06-14 15:02 404次阅读
    苏州吴中区多色PCB板元器件<b class='flag-5'>3D</b>视觉检测技术

    银牛微电子引领3D空间计算芯片前沿技术

    在此次活动上,银牛微电子有限责任公司的周凡博士指出,2D视觉已无法满足日益复杂的系统需求,因此我们需要引入更多维度来辅助机器人和智能设备更好地理解并融入真实环境,即从2D3D转变。
    的头像 发表于 05-18 16:34 875次阅读

    NVIDIA Instant NeRF将多组静态图像变为3D数字场景

    想象一幅风光旖旎的画面,比如水畔的悬崖峭壁。即便只是 2D 图像,如此美景依旧令人心驰神往。如果同一画面能以 3D 效果展现,那么无需跋涉就能身临其境。
    的头像 发表于 05-07 09:15 406次阅读

    通过2D/3D异质结构精确控制铁电材料弛豫时间

    受经典德拜弛豫启发的米勒模型提供了通过操纵弛豫时间来控制自发极化的理论框架。作者通过使用层转移技术形成的2D/C-3D/2D异质结构克服了传统异质结存在的铁电性恶化和能量损失的问题。
    的头像 发表于 04-29 10:27 649次阅读
    通过<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>异质结构精确控制铁电材料弛豫时间

    Adobe Substance 3D整合AI功能:基于文本生成纹理、背景

    Substance 3D Stager是以Adobe Dimension为基础改造而成,使用者可直观地进行3D场景构建,包括模型、材质和灯光等要素。借助其强大功能,能够生成极具观赏性的
    的头像 发表于 03-20 10:28 719次阅读

    有了2D NAND,为什么要升级到3D呢?

    2D NAND和3D NAND都是非易失性存储技术(NVM Non-VolatileMemory),属于Memory(存储器)的一种。
    的头像 发表于 03-17 15:31 1015次阅读
    有了<b class='flag-5'>2D</b> NAND,为什么要升级到<b class='flag-5'>3D</b>呢?

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D Detection-Guided Query A
    的头像 发表于 02-27 16:38 1132次阅读
    Nullmax提出多相机<b class='flag-5'>3D</b>目标检测新方法QAF<b class='flag-5'>2D</b>

    Adobe提出DMV3D3D生成只需30秒!让文本图像都动起来的新方法!

    因此,本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此,他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型,能直接根据模型文字或单张图片的输入,生成 3D
    的头像 发表于 01-30 16:20 850次阅读
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>生成只需30秒!让<b class='flag-5'>文本</b>、<b class='flag-5'>图像</b>都动起来的新方法!

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive
    的头像 发表于 01-30 15:56 869次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大模型,刷新多个SOTA!

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。
    的头像 发表于 01-13 11:37 1061次阅读

    如何搞定自动驾驶3D目标检测!

    可用于自动驾驶场景下基于图像3D目标检测的数据集总结。其中一些数据集包括多个任务,这里只报告了3D检测基准(例如KITTI 3D发布了超过
    发表于 01-05 10:43 584次阅读
    如何搞定自动驾驶<b class='flag-5'>3D</b>目标检测!

    一种用于2D/3D图像处理算法的指令集架构以及对应的算法部署方法

    二维(2D)和三维(3D)双模视觉信息在自动驾驶、工业机器人、人机交互等前沿领域具有广泛的应用前景。
    的头像 发表于 01-05 10:35 458次阅读
    一种用于<b class='flag-5'>2D</b>/<b class='flag-5'>3D</b><b class='flag-5'>图像</b>处理算法的指令集架构以及对应的算法部署方法

    一文了解3D视觉和2D视觉的区别

    一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式,其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别,并解释为什么
    的头像 发表于 12-25 11:15 3018次阅读