0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于神经辐射场的自监督多相机占用预测

3D视觉工坊 来源:3DCV 2024-01-02 14:53 次阅读

1、笔者导读

我们提出了一种名为OccNeRF的方法,用于自监督多相机3D占用预测。该方法通过参数化重建的占用场来表示无限空间,并通过神经渲染将占用场转换为多相机深度图。为了提供几何和语义监督,该方法利用多帧图像之间的光度一致性进行监督。此外,为了语义占用预测,该方法还设计了几种策略来处理预训练的开放词汇模型。

2、解决了什么?

本研究提出了一种自监督的多摄相机3D占据预测方法,名为OccNeRF。该方法旨在解决无界场景的建模问题。

3、方法

主要包括以下几个方面:

参数化占用场景表示

使用神经辐射场(Neural Radiance Fields,NeRF)来表示占用场景。

引入参数化坐标系,将无界的场景表示为有界的占用场景。

使用参数化坐标系中的体素来表示占用场景的内部和外部区域。

使用占用场景的体素表示来训练网络

多摄像头特征聚合

对于每个摄像头,将其对应的图像特征投影到参数化坐标系中的体素上。

使用双线性插值将投影后的特征聚合为体素特征。

使用三维卷积网络提取特征并预测最终的占用输出。

多帧深度估计

使用体素渲染技术将占用场景投影到多摄像头的深度图上。

通过沿着摄像头中心到像素的射线采样一系列点,计算对应像素的深度值。

使用渲染权重代替密度来适应占用场景的表示。

使用多帧光度损失来训练深度估计模型。

开放词汇语义监督

使用多摄像头图像的二维语义标签提供像素级的语义监督。

通过将预训练的开放词汇模型的输出与图像特征进行对齐,生成二维语义标签。

使用二维语义标签来训练网络,提高几何一致性和体素之间的空间关系的捕捉能力。

4、损失函数

研究所涉及的损失函数有以下几种:

渲染损失:用于训练神经辐射场(Neural Radiance Fields,NeRF)模型的监督信号。通过计算渲染的像素颜色与真实像素颜色之间的差异来衡量模型的性能。

时序光度损失:用于多帧深度估计的监督信号。通过将相邻帧投影到当前帧,并计算投影图像与原始图像之间的重构误差来训练模型。

语义损失:用于语义三维占据预测的监督信号。通过提供多相机图像的二维语义标签,帮助网络捕捉几何一致性和体素之间的空间关系。

5、实验结果

本研究采用了自监督的多相机占据预测方法,称为OccNeRF。我们的实验方法和结果如下:

数据集:本研究在nuScenes数据集上进行实验,该数据集包含600个场景用于训练,150个场景用于验证,150个场景用于测试。数据集包含大约40000帧图像和17个类别。

自监督深度估计:首先,将LiDAR点云投影到每个视角上,得到深度图作为自监督深度估计的输入。然后,使用神经辐射场(Neural Radiance Fields,NeRF)方法进行深度估计。NeRF使用渲染方程将3D场景中的颜色和深度信息映射到2D图像中。本研究在NeRF的基础上进行改进,引入了时间光度约束和多帧渲染,以提高深度估计的准确性。

占据预测:为了预测场景中的占据情况,本研究使用了Grounding DINO模型和Grounded-SAM模型。首先,使用Grounding DINO模型生成检测边界框和对应的logits和短语。然后,将这些信息输入到Grounded-SAM模型中,生成精确的语义分割二值掩码。最后,使用体素渲染技术将语义标签投影到图像空间中,得到占据预测结果。

实验评估:本研究使用了多个评估指标来评估深度估计和占据预测的性能,包括绝对相对误差(Abs Rel)、平方相对误差(Sq Rel)、均方根误差(RMSE)等。同时,与其他自监督和有监督方法进行了比较,以验证OccNeRF方法的优越性。

69db56ea-a72d-11ee-8b88-92fbcf53809c.png

69e2e770-a72d-11ee-8b88-92fbcf53809c.png

5、总结

本研究通过自监督深度估计和占据预测方法,实现了对多摄像头场景中的占据情况的准确预测。实验结果表明,OccNeRF方法在深度估计和占据预测方面取得了较好的性能。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摄像头
    +关注

    关注

    59

    文章

    4836

    浏览量

    95599
  • 相机图像
    +关注

    关注

    0

    文章

    7

    浏览量

    6041
  • LIDAR
    +关注

    关注

    10

    文章

    326

    浏览量

    29414

原文标题:清华最新发布!OccNeRF:基于神经辐射场的自监督多相机占用预测

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    有提供编写神经网络预测程序服务的吗?

    有提供编写神经网络预测程序服务的吗?
    发表于 12-10 13:50

    关于BP神经网络预测模型的确定!!

    请问用matlab编程进行BP神经网络预测时,训练结果很多都是合适的,但如何确定最合适的?且如何用最合适的BP模型进行外推预测
    发表于 02-08 14:23

    如何用卷积神经网络方法去解决机器监督学习下面的分类问题?

    人工智能下面有哪些机器学习分支?如何用卷积神经网络(CNN)方法去解决机器学习监督学习下面的分类问题?
    发表于 06-16 08:09

    基于小波包_神经网络的太阳逐时辐射预测_陈杰

    基于小波包_神经网络的太阳逐时辐射预测_陈杰
    发表于 12-31 14:45 1次下载

    多相机视域下行人目标匹配

    针对多相机视域下行人目标匹配正确率不高的问题,基于无监督显著性学习和局部特征匹配提出一种全局最优匹配模型。将不同视域间的目标匹配进行关联,每对相机的直接匹配受制于其间接匹配的监督,同时
    发表于 03-07 16:12 0次下载

    监督学习与Transformer相关论文

    学习、Transformer、图神经网络、自然语言处理、模型压缩等热点领域,将分多期为大家带来系列论文解读。 本期的关注焦点是监督学习与
    的头像 发表于 11-02 15:50 2682次阅读
    <b class='flag-5'>自</b><b class='flag-5'>监督</b>学习与Transformer相关论文

    基于主动学习的半监督神经网络模型来对分子性质进行预测方法

    总体来讲,本文使用教师模型和学生模型来迭代训练。每个模型都是一个图神经网络。在教师模型中,使用半监督的方式来获得分子图的一般表示。我们联合训练分子的无监督表示和基于属性预测的embed
    的头像 发表于 11-24 09:59 4100次阅读

    采用监督CNN进行单图像深度估计的方法

    为了提高利用深度神经网络预测单图像深度信息的精确度,提出了一种采用监督卷积神经网络进行单图像深度估计的方法。首先,该方法通过在编解码结构中
    发表于 04-27 16:06 13次下载
    采用<b class='flag-5'>自</b><b class='flag-5'>监督</b>CNN进行单图像深度估计的方法

    基于多相机捕捉系统下的通用物体运动捕捉方法

    基于多相机捕捉系统下的通用物体运动捕捉方法
    发表于 06-25 10:34 29次下载

    介绍一种神经成对配准的技术NeRF2NeRF

    我们介绍了一种神经成对配准的技术,它扩展了基于优化的经典局部配准(即ICP)以操作神经辐射(NeRF)。
    的头像 发表于 02-20 10:29 640次阅读

    NeRF2NeRF神经辐射的配对配准介绍

    我们介绍了一种神经成对配准的技术,它扩展了基于优化的经典局部配准(即ICP)以操作神经辐射(NeRF)。
    的头像 发表于 03-31 16:49 896次阅读

    基于神经辐射(NeRFs)的自动驾驶模拟器

    如今,自动驾驶汽车可以在普通情况下平稳驾驶,人们普遍认为,真实的传感器模拟将在通过模拟解决剩余的极端情况方面发挥关键作用。为此,我们提出了一种基于神经辐射(NeRFs)的自动驾驶模拟器。
    发表于 08-01 14:46 749次阅读
    基于<b class='flag-5'>神经</b><b class='flag-5'>辐射</b><b class='flag-5'>场</b>(NeRFs)的自动驾驶模拟器

    SHERF:可泛化可驱动人体神经辐射的新方法

    人体神经辐射的目标是从 2D 人体图片中恢复高质量的 3D 数字人并加以驱动,从而避免耗费大量人力物力去直接获取 3D 人体几何信息。这个方向的探索对于一系列应用场景,比如虚拟现实和辅助现实场景,有着非常大潜在性的影响。
    的头像 发表于 08-15 11:46 811次阅读
    SHERF:可泛化可驱动人体<b class='flag-5'>神经</b><b class='flag-5'>辐射</b><b class='flag-5'>场</b>的新方法

    WACV 2023 I从ScanNeRF到元宇宙:神经辐射的未来

    神经辐射(NeRF)通过将三维场景编码成隐式表示,在视觉领域中广泛应用。通过学习多层感知机(MLP)来建立隐式映射,其中包括中间的MLP(pos)用于推断密度和嵌入,浅层的MLP(rgb)用于
    的头像 发表于 09-01 16:14 607次阅读
    WACV 2023 I从ScanNeRF到元宇宙:<b class='flag-5'>神经</b><b class='flag-5'>辐射</b><b class='flag-5'>场</b>的未来

    基于几何分析的神经辐射编辑方法

    神经辐射作为近期一个广受关注的隐式表征方法,能合成照片级真实的多视角图像。但因为其隐式建模的性质,用户难以直观编辑神经辐射
    的头像 发表于 11-20 16:56 572次阅读
    基于几何分析的<b class='flag-5'>神经</b><b class='flag-5'>辐射</b><b class='flag-5'>场</b>编辑方法