0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用NeRF训练深度立体网络的创新流程

3D视觉工坊 来源:3D视觉工坊 2023-05-29 10:49 次阅读

本文提出了一种新的深度立体网络训练框架,可以从使用单个手持相机拍摄的图像序列中生成立体训练数据。这种方法利用了神经渲染解决方案提供的立体图像,跳过了基于ground-truth的训练,使用三元组来补偿遮挡和深度图像作为代理标签进行NeRF监督训练。实验结果表明,训练模型的效果比现有的自我监督方法提高了30-40%,在Middlebury数据集中达到了受监督模型的效果,而且大多数情况下在零拍摄泛化方面表现出色。

1 前言

本文介绍了神经渲染用于构建灵活可扩展训练数据的新范式,该方法可以轻松地训练深度立体网络且无需任何基础知识。该方法使用标准单手持相机在野外收集稀疏的图像序列,并在其上训练NeRF模型。通过NeRF模型,可以从任意视点合成立体对以自我监督的方式训练任何立体网络,其中通过渲染每个对的第三个视图来有效地解决遮挡问题。此外,NeRF渲染的深度作为代理监督完善了我们的NeRF监督训练方法。实验结果表明,相对于现有的自我监督方法和合成数据集方法,所提出的方法在零拍摄泛化方面表现更出色。

本文的主要贡献可以总结为以下几点:

创新的方法来使用神经渲染和一系列用户收集的图像序列来收集和生成立体训练数据。

一个 NeRF-Supervised 训练协议,结合渲染图像三元组和深度图来解决遮挡和增强细节。

在具有挑战性的立体数据集上实现了最先进的零样本泛化结果,且没有利用任何真实立体对或基准。

29376a56-fcfc-11ed-90ce-dac502259ad0.png

2 相关背景

本文这部分介绍了立体匹配、无监督立体、零样本泛化和神经辐射场等方面的相关工作。在立体匹配中,介绍了近几年深度学习成为该领域主导技术的情况。然而,这些方法严格要求密集的真实地面实况。在无监督立体中,使用光度损失的策略是常见的,但根据作者的说法,这些策略只适用于单个领域的专业化或适应。在零样本泛化中,将视差估算视为制作立体算法的问题进行改进是一条研究思路。在神经辐射场中,NeRF是主要的方法,其模型可以解决多种问题。作者提出的方法是通过从单个图像生成立体对来学习,不需要在数百万图像上预先训练任何模型或有实况标签,但仍然能取得更好的结果。

3 方法

本文提出了NeRF-Supervised(NS)学习框架,用于训练立体匹配网络。该框架的步骤主要包括:从多个静态场景中收集多视角图像,适配NeRF以渲染立体三元组和深度信息,最后使用渲染的数据训练立体匹配网络。

29558db0-fcfc-11ed-90ce-dac502259ad0.png

3.1 Background: Neural Radiance Field (NeRF) - NeRF背景

神经放射场(NeRF)是一种将场景中点的 3D 坐标和捕捉该点的相机的视角作为输入,映射到颜色-密度输出的模型。为了渲染 2D 图像,该模型通过将相机光线分成预定义的采样点,并使用 MLP 估计每个采样点的密度和颜色,最终使用体渲染合成 2D 图像。显式表示例如体素网格可以存储其他特征,以加速模型训练和计算。

3.2 NeRF as a Data Factory - NeRF作为数据工厂

这部分作者介绍了如何使用NeRF作为数据工厂生成立体图像对以训练深度立体网络。首先,作者通过COLMAP对图像进行预处理,然后为每个场景拟合独立的NeRF,并使用渲染损失进行优化。最后,通过虚拟立体相机参数渲染两个新视图和一个第二个目标帧,创建完美校正的立体三元组。在这个过程中,我作者从渲染深度中提取位移,并用它来辅助训练深度立体网络。

3.3 NeRF-Supervised Training Regime - NeRF监督训练机制

作者提出了一个NeRF-Supervised训练方案,其中利用一个图像三元组通过光度损失和渲染位移损失对深度立体模型进行监督。三元组光度损失通过使用图像重建来对遮挡问题进行补偿。渲染位移损失被过滤以去除不可靠的像素。最终,两个损失被加权平衡后,用于训练任何深度立体网络。

29b3ab0c-fcfc-11ed-90ce-dac502259ad0.png

4 实验

4.1 实施细节

作者使用移动设备捕获的高分辨率场景进行深度估计的方法。通过收集270个静态场景和渲染三元组来生成训练数据,并使用Instant-NGP作为NeRF engine实现,以实现精确深度估计。此外,还引入了一个提议来提高现有立体算法的性能,并利用普通的相机进行实现。其中,作者采用了准确性和快速收敛的RAFT-Stereo作为主要架构,并使用PSMNet和CFNet进行评估,提高了这些算法的性能。

4.2 评估数据集与协议

作者使用KITTI、Middlebury和ETH3D数据集进行评估,计算视差误差指标,并按照立体匹配领域的协议定义验证和测试集。评估采用固定的阈值τ,分别为KITTI固定τ = 3,Middlebury固定τ = 2,ETH3D固定τ = 1。在评估期间,考虑遮挡和非遮挡区域并具有有效的基准视差。

欢迎关注微信公众号「3D视觉工坊」,加群/文章投稿/课程主讲,请加微信:QYong2014,添加时请备注:加群/投稿/主讲申请

4.3 消融研究

作者使用渲染视频生成大规模立体训练数据集的方法,涉及渲染参数选择,标签生成和代理损失的选择方法等。在进行降板研究时,作者发现在他们的数据集上使用L3ρ损失是最佳的,这利用了他们的渲染三重组合产生的三角形几何形状的自监督。本文还介绍了使用虚拟基线对视差分布的影响,评估了渲染图像的分辨率以及收集的场景数量在训练过程中的影响。作者发现,更多的图像及更小的虚拟基线可以提高模型的性能。在最具挑战性的数据集上使用更多场景可以显著提高模型的准确性。

29f71b08-fcfc-11ed-90ce-dac502259ad0.png2a16b1e8-fcfc-11ed-90ce-dac502259ad0.png2a396f58-fcfc-11ed-90ce-dac502259ad0.png

4.4 与MFS对比

作者比较了本文的方法和最新的从单一图像生成立体图对方法MfS,并通过训练三种立体网络得出。研究表明,在使用MfS生成方法和使用MfS数据集上训练时,MfS表现较好(A,D和G)。然而,本文的方法在不需要使用大量训练数据的情况下,通过NS范式提供的监督训练的立体网络在大多数情况下表现更好,证明了我们的NS范式实现了更好的性能和更高的预测质量。

2a491264-fcfc-11ed-90ce-dac502259ad0.png

4.5 零样本泛化基准测试

作者针对立体视觉领域的零样本泛化问题,在NS-PSMNet模型的基础上进行了实验评估并与其它先进方法进行了比较。针对不同论文中关于Middlebury数据集评估协议的不一致性问题,本文重新评估了相关方法并建立了一个公共评估协议。通过对比实验结果,本文发现组合使用泛化能力较强的RAFT-Stereo和NS的方法可以在Middlebury数据集上获得最佳结果。同时,在使用全部数据集作为评估标准时,NS-PSMNet模型的表现优于除了PSMNet的其他先进方法。

2a7a0f68-fcfc-11ed-90ce-dac502259ad0.png

5 总结

NeRF-Supervised Deep Stereo提出了一种新的学习框架,可以轻松地训练立体匹配网络,而不需要任何ground-truth数据,该论文还提出了一种NeRF-Supervised训练协议,该协议结合了渲染图像三元组和深度图,以解决遮挡问题并增强细节,实验结果表明,该模型在挑战性的立体数据集上取得了最先进的零样本泛化结果。

本文提出了一种利用NeRF训练深度立体网络的创新流程,通过单个低成本手持相机捕捉图像进行训练,产生了最先进的零样本泛化,超越了自我监督和监督方法。虽然局限于小规模、静态的场景,而且仍无法处理具有挑战性的条件,但是作者的工作是数据民主化的显著进步,将成功的关键置于用户手中。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6892

    浏览量

    88828
  • 网络
    +关注

    关注

    14

    文章

    7517

    浏览量

    88628

原文标题:CVPR2023 I NeRF-Supervised Deep Stereo:不需要任何ground-truth数据

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    利用深度循环神经网络对心电图降噪

    具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 我们提出了一种利用由长短期记忆 (LSTM) 单元构建的深度循环神经网络来降 噪心电图信号 (ECG
    发表于 05-15 14:42

    关于创新训练计划项目

    学校有个大学生创新训练计划项目的申报,不知道做什么,想做个电子类的,只会一点单片机基础,c语言麻烦各位给点建议。。。
    发表于 04-25 23:14

    人工智能AI-卷积神经网络LabVIEW之Yolov3+tensorflow深度学习有用吗?

    python编程语言的前提下,使用labview训练和部署深度学习模型,并配备相关案例视频以及源码。适用人群:1、适用于工业自动化行业从业者利用labview或者C#进行深度学习应用;
    发表于 11-27 11:19

    基于虚拟化的多GPU深度神经网络训练框架

    针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法。利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变
    发表于 03-29 16:45 0次下载
    基于虚拟化的多GPU<b class='flag-5'>深度</b>神经<b class='flag-5'>网络</b><b class='flag-5'>训练</b>框架

    深度学习网络训练技巧的详细资料汇总

    本文档的主要内容详细介绍的是深度学习网络训练技巧汇总,总结训练网络的各种经验和技巧
    发表于 03-07 08:00 10次下载
    <b class='flag-5'>深度</b>学习<b class='flag-5'>网络</b><b class='flag-5'>训练</b>技巧的详细资料汇总

    基于预训练模型和长短期记忆网络深度学习模型

    语义槽填充是对话系统中一项非常重要的任务,旨在为输入句子的毎个单词标注正确的标签,其性能的妤坏极大地影响着后续的对话管理模块。目前,使用深度学习方法解决该任务时,一般利用随机词向量或者预训练词向量
    发表于 04-20 14:29 19次下载
    基于预<b class='flag-5'>训练</b>模型和长短期记忆<b class='flag-5'>网络</b>的<b class='flag-5'>深度</b>学习模型

    NVIDIA GPU加快深度神经网络训练和推断

    深度学习是推动当前人工智能大趋势的关键技术。在 MATLAB 中可以实现深度学习的数据准备、网络设计、训练和部署全流程开发和应用。联合高性能
    的头像 发表于 02-18 13:31 2015次阅读

    NeRF的基本概念及工作原理

    神经辐射场 (NeRF) 是一个完全连接的神经网络,可以基于部分 2D 图像集生成复杂 3D 场景的新视图。它被训练使用渲染损失来重现场景的输入视图。它的工作原理是获取代表场景的输入图像并在它们之间进行插值以渲染一个完整的场景。
    的头像 发表于 08-29 11:01 2.3w次阅读

    Block nerf:可缩放的大型场景神经视图合成

    为了在大场景中应用神经辐射场(NeRF)模型,文章提出将大型场景分解为相互重叠的子场景 (block),每一个子场景分别训练,在推理时动态结合相邻 Block-NeRF 的渲染视图。
    的头像 发表于 10-19 15:15 1477次阅读

    了解NeRF 神经辐射场

    介绍 NeRF( Neural Radiance Fields )是一种先进的计算机图形学技术,能够生成高度逼真的3D场景。它通过深度学习的方法从2D图片中学习,并生成连续的3D场景模型。NeRF
    的头像 发表于 06-12 09:52 5395次阅读
    了解<b class='flag-5'>NeRF</b> 神经辐射场

    基于NeRF的隐式GAN架构

    一小部分2D图像合成复杂3D场景的新视图方面提供了最先进的质量。 作者提出了一个生成模型HyperNeRFGAN,它使用超网络范式来生成由NeRF表示的三维物体。超网络被定义为为解决特定任务的单独目标
    的头像 发表于 06-14 10:16 1015次阅读
    基于<b class='flag-5'>NeRF</b>的隐式GAN架构

    深度学习框架区分训练还是推理吗

    深度学习框架区分训练还是推理吗 深度学习框架是一个非常重要的技术,它们能够加速深度学习的开发与部署过程。在深度学习中,我们通常需要进行两个关
    的头像 发表于 08-17 16:03 1334次阅读

    利用PyTorch实现NeRF代码详解

    神经辐射场(NeRF)是一种利用神经网络来表示和渲染复杂的三维场景的方法。它可以从一组二维图片中学习出一个连续的三维函数,这个函数可以给出空间中任意位置和方向上的颜色和密度。通过体积渲染的技术,
    的头像 发表于 10-21 09:46 709次阅读

    人脸识别模型训练流程

    人脸识别模型训练流程是计算机视觉领域中的一项重要技术。本文将详细介绍人脸识别模型的训练流程,包括数据准备、模型选择、模型训练、模型评估和应用
    的头像 发表于 07-04 09:19 834次阅读

    如何利用Matlab进行神经网络训练

    ,使得神经网络的创建、训练和仿真变得更加便捷。本文将详细介绍如何利用Matlab进行神经网络训练,包括
    的头像 发表于 07-08 18:26 1676次阅读