0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种对标Tesla Occupancy的开源3D语义场景补全⽅法

3D视觉工坊 来源:旷视研究院 2023-03-08 16:44 次阅读

一、背景

在 2022 年的 Tesla AI Day 上, Tesla 将 Bev(鸟瞰图) 感知进⼀步升级,提出了基于 Occupancy Network 的感知⽅法。这种基于 Occupancy Grid Mapping 的表示⽅法,⼜叫体素(Voxel)占据,在 3D 重建任务中已经是一个“老熟人”了。

它将世界划分成为⼀系列 3D ⽹格单元,然后定义哪个单元被占⽤,哪个单元是空闲的,并且每个占据单元同时也包含分类信息,⽐如路⾯、⻋辆、建筑物、树⽊等。在⾃动驾驶感知中,相⽐普通的 3D 检测⽅法,这种基于体素的表示可以帮助预测更精细的异形物体。如下图 Tesla Demo 中所展示的那样,对于空间感知更精细。

3d581470-bbd6-11ed-bfe3-dac502259ad0.jpg

左图:使用固定的矩形框标记车辆;右图:使用体素占据来精细表示车辆

在这种在线重建的⽅法中,⼀般使⽤ SSC ( Semantic Scene Completion)任务评判预测的准确性,即利⽤图像、点云或者其他 3D 数据作为输⼊,预测空间中的体素占据和类别信息,并与 GT 标注相⽐较。在权威的⾃动驾驶 Semantic-Kitti SSC 任务中,可以根据输⼊分成纯图像和基于 3D (点云、 TSDF、体素等)的两类不同的⽅法。

使⽤纯图像⽅案恢复 3D 结构是⼀个⽐较困难的问题,旷视研究院提出了 OccDepth 的⽅法,将纯图像输⼊⽅法的精度⼤幅提升,获得了视觉⽅法的 SOTA,其中 SC IOU 从 34.2 增⻓为 45.1, mIOU 从 11.1 增⻓为15.9。同时可视化结果表明 OccDepth 可以更好地重建出近处和远处的⼏何结构。下⾯将带⼤家介绍 OccDepth 具体的⽅法。

3d6dbac8-bbd6-11ed-bfe3-dac502259ad0.gif

二、任务困难和解决动机

仅从视觉图像估计场景中完整的⼏何结构和语义信息,这是⼀项具有挑战性的任务,其中准确的深度信息对于恢复 3D⼏何结构是⾄关重要的。之前的很多⼯作,都是利⽤点云、 RGBD 、TSDF[1]等其他 2.5D 、3D 形式[2-8]作为输⼊,来预测体素占据,这也需要较昂贵的设备来采集 3D 信息。基于纯图像的⽅案更便宜,同时也可以提供更为丰富且稠密场景表示, MonoScene[9]提出了纯视觉的 Baseline。但相较于上述的 3D ⽅法,在⼏何结构恢复⽅⾯,表现有⼀定的差距。

本项工作借鉴了“人类使用双眼能比单眼更好地感知3D世界中的深度信息”的思想,提出了名为 OccDepth 的语义场景补全⽅法。它分别显式和隐式地利⽤图像中含有的深度信息,以帮助恢复良好的 3D ⼏何结构。在 SemanticKITTI 和 NYUv2 等数据集上的⼤量实验表明,与当前基于纯视觉的 SSC ⽅法相⽐,我们提出的 OccDepth ⽅法均达到了 SOTA,在 SemanticKITTI 上整体实现了+4.82% mIoU 的提升,其中+2.49% mIoU 的提升来⾃隐式的深度优化,+2.33% mIoU 提升来⾃于显式的深度蒸馏。在NYUv2 数据集上,与当前基于纯视觉的 SSC ⽅法相⽐, OccDepth 实现了+4.40% mIoU 的提升。甚⾄相⽐于所有 2.5D 、3D 的⽅法, OccDepth 仍然实现了 +1.70% mIoU 的提升。

三、具体方法

3e5e7e86-bbd6-11ed-bfe3-dac502259ad0.png

上图是 OccDepth 的主要流程。3D 场景语义补全可以根据输⼊的双⽬图像所推理出来,其中连接了⼀个双⽬特征软融合(Stereo-SFA )模块⽤于隐式地将特征提升到 3D 空间,⼀个占⽤深度感知(OAD) 模块⽤于显式地增强深度预测,后续接上 3D U-Net ⽤于提取⼏何和语义信息。其中双⽬深度⽹络仅在训练的时候使⽤,⽤蒸馏的⽅法帮助 OAD 模块提升深度预测能⼒。

双目特征软融合模块

3e71950c-bbd6-11ed-bfe3-dac502259ad0.png


pYYBAGQIS5eAd4BjAAI9peXdUek057.jpg

3e81adac-bbd6-11ed-bfe3-dac502259ad0.png

pYYBAGQIS6uAWfU7AABY6tg2mpg965.jpg

占用感知的深度蒸馏模块

3e90fd48-bbd6-11ed-bfe3-dac502259ad0.png

poYBAGQIS7-ADJ4nAAJnOwNjQGI870.jpg

3ea11570-bbd6-11ed-bfe3-dac502259ad0.png

poYBAGQIS9SAQe6QAAFAFmh55fQ770.jpg

四、实验

指标对比

3ebf5544-bbd6-11ed-bfe3-dac502259ad0.png

pYYBAGQIS-iAdk6DAAJdWQ8bkTo046.jpg

3ecffe08-bbd6-11ed-bfe3-dac502259ad0.png

在不同数据集上和 2.5D/3D 数据作为输入的方法的对比表。OccDepth 的结果在一些室内场景上和 2.5D/3D 的方法接近甚至有所超越,在室外场景上和某些 2.5D/3D 方法相媲美。"*" 表示结果引用自 MonoScene。“/”表示缺失结果。

我们还将 OccDepth 与原始 2.5D/3D 作为输入的基础方法进行了比较,结果列在上表中。在 SemanticKITTI 数据集的隐藏测试集中,虽然 OccDepth 只使用水平视野比激光雷达( 82°vs. 180°)小得多的双目图像,但 OccDepth 取得了和使用 2.5D/3D 基础方法可比的结果 。

这个结果表明 OccDepth 具有相对较好的补全能力。在 NYUv2 的测试集中,因为没有双目图像,我们的 OccDepth 将 RGB 图像和深度图生成虚拟双目图像作为输入。结果显示, OccDepth 取得了比所有 2.5D/3D 方法更好的 mIoU 和 IoU([+0.8 IoU,+1.7 mIoU])。

在提出的仿真数据集 SemanticTartanAir 的测试集中,我们在这里使用深度真值作为这些 2.5D/3D 方法的输入,所以 2.5D/3D 方法的准确率非常高。另一方面,与 2.5D/3D 输入方法相比, OccDepth 具有较为接近的 mIoU 结果,并且 OccDepth 没有使用深度真值。与 纯视觉推理的方法相比,OccDepth 具有更高的 IoU 和 mIoU ([+17.6 IoU, +10.9 mIoU])。

定性对比

3ee8a520-bbd6-11ed-bfe3-dac502259ad0.png

在 SemanticTartanAir 和SemanticKITTI 上的可视化结果。最左侧是输入的图像,最右侧是语义体素真值,中间为各种方法的可视化结果。这里显示了 OccDepth 在两个数据集中有较好结果场景。

在室内场景 SemanticTartanAir 数据集上,虽然所有方法都正确获得了正确的场景表示,但 OccDepth 对物体边缘具有更好的还原效果,例如沙发(图(a)的第 1 行)和天花板灯(图(a)的第 2 行) 和地毯(图(a)的第 3 行)。而在室外场景的 SemanticKITTI 数据集上,与基础方法相比,OccDepth 的空间和语义预测结果明显更好。例如,通过 OccDepth 可以实现路标(图(b)的第 1 行)、树干(图(b)的第 2 行)、车辆(图(b)的第 2 行)和道路(图(b)的第 3 行)的准确识别。

消融实验

3f3406c8-bbd6-11ed-bfe3-dac502259ad0.png

对提出的模块进行消融实验。(a) Stereo-SFA 模块的消融实验。(b) OAD 模块中深度蒸馏数据源的消融实验。(c)OAD 模块中深度蒸馏数据源的消融实验。“w/o Depth”表示不使用深度蒸馏,Lidar depth 是指激光雷达点云生成的深度图,Stereo Depth 是指 LEAStereo 模型生成的深度图。以上实验都在 SemanticKITTI 的 08 号轨迹上进行测试。(a),(b),(c)的消融实验结果证明了提出的每个模块的有效性。

五、总结

在这项工作中,我们提出了一种有效利用深度信息的 3D 语义场景补全方法,我们将其命名为 OccDepth 。我们在 SemanticKITTI(室外场景)和 NYUv2(室内场景)数据集等公共数据集上训练了 OccDepth, 实验结果表明,本工作提出的 OccDepth 在室内场景和室外场景上都可与某些以 2.5D/3D 数据作为输入的方法相媲美。特别地是,OccDepth 在所有场景体素类别分类上都优于当前基于纯视觉推理的方法。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • RGB
    RGB
    +关注

    关注

    4

    文章

    798

    浏览量

    58467
  • ssc
    ssc
    +关注

    关注

    0

    文章

    24

    浏览量

    11205
  • 激光雷达
    +关注

    关注

    968

    文章

    3971

    浏览量

    189836

原文标题:OccDepth:对标 Tesla Occupancy 的开源 3D 语义场景补全⽅法

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    HT for Web (Hightopo) 使用心得(4)- 3D 场景 Graph3dView 与 Obj 模型

    这里我们通过代码建立3D 场景并添加个 Obj 模型来介绍下 HT for Web 在
    的头像 发表于 11-20 11:05 769次阅读
    HT for Web (Hightopo) 使用心得(4)- <b class='flag-5'>3D</b> <b class='flag-5'>场景</b> Graph<b class='flag-5'>3</b>dView 与 Obj 模型

    什么叫3D微波技术

    3D电影已成为影院观影的首选,当3D打印已普及到双耳无线蓝牙耳机,一种叫“3D微波”的技术也悄然而生。初次听到“3D微波”,你可能会
    发表于 07-02 06:30

    建立元件3D图形的方法介

    使用 Altium Desinger绘制的PCB封装默认情况下为平面,也就是将其切换到 3D 视图时,只能看到的是封装的形状,并不是元件的外观,这里给大家介绍建立元件3D图形的方法
    发表于 07-12 07:37

    一种非接触式3D指纹识别系统的设计方案

    为什么要设计一种双目视角的非接触式3D指纹识别系统 ? 与传统指纹识别系统相比,3D指纹识别系统有什么优势? 怎样去设计一种双目视角的非接触式3D
    发表于 04-19 07:10

    如何去实现一种基于codesys平台的3d打印机设计?

    初始化应该包括哪些内容?如何去实现一种基于codesys平台的3d打印机设计?
    发表于 07-05 08:02

    怎样去设计一种基于3D打印机的Delta机械臂

    怎样去设计一种基于3D打印机的Delta机械臂?有哪些操作步骤?
    发表于 10-11 08:17

    分享开源3D打印创新

    嵌入式顶级程序员 开源继续推动3D打印行业的快速创新。 如果您停下来想想,这很有道理-存在3D打印机可以做其他事情。 将这理念与免费软件
    发表于 12-21 07:27

    如何使用一种形式化方法的3D虚拟祭祀场景建模语言与环境

    针对现有三维(3D场景建模方法普遍存在着业务耦合度高,复杂场景对象属性和特征描述能力不强、不丰富,不能很好地解决3D虚拟祭祀场景建模的问题
    发表于 01-02 14:13 9次下载
    如何使用<b class='flag-5'>一种</b>形式化方法的<b class='flag-5'>3D</b>虚拟祭祀<b class='flag-5'>场景</b>建模语言与环境

    带你了解3D微波技术及其应用场景

    3D电影已成为影院观影的首选,当3D打印已普及到双耳无线蓝牙耳机,一种叫“3D微波”的技术也悄然而生。初次听到3D微波”,你可能会
    发表于 07-24 10:26 0次下载
    带你了解<b class='flag-5'>3D</b>微波技术及其应用<b class='flag-5'>场景</b>

    什么是3D场景式消费,新兴技术如何助力发展

    随着5G、AI和3D等新兴技术的发展,3D场景式消费将作为一种全新的购物体验进入人们的日常生活中,从传统的实体店到现在的电商平台,线下体验线上下单,以及全新的
    的头像 发表于 07-08 11:50 2742次阅读

    ThingJS平台推出3D场景本地缓存技术

    脚本创建和操作,使用JSON数据格式。下面详细介绍IndexedDB本地缓存技术,作为一种浏览器数据存储方案,对场景项目开发有极大的意义。 ①  本地缓存技术提升用户访问体验 ThingJS平台支持在线开发面向物联网的
    发表于 03-13 11:19 1803次阅读

    VR全景看房3D场景的制作方法

    技术构建的VR房地产展示VR全景看房3D场景可视化制作解决方案,创建3D虚拟现实世界体验的展示,运用先进技术生成的一种模拟环境多信息化融合、交互式的三维动态
    发表于 04-23 10:21 9957次阅读

    HarmonyOS 3D渲染引擎介绍

    随着3D技术的应用普及,越来越多的场景都能看到3D的身影,比如充电动效、3D壁纸、游戏等等,给用户带来了更有趣、更丰富的体验。要满足用户的3D
    的头像 发表于 12-23 09:49 4357次阅读
    HarmonyOS <b class='flag-5'>3D</b>渲染引擎<b class='flag-5'>介绍</b>

    介绍一种高效的线云重建算法ELSR

    提出了一种高效的线云重建方法,称为ELSR,其利用了城市场景中常见的场景平面和稀疏的3D
    的头像 发表于 03-29 18:14 915次阅读

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法。
    的头像 发表于 01-13 11:37 1061次阅读