0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Block nerf:可缩放的大型场景神经视图合成

3D视觉工坊 来源:泡泡机器人SLAM 作者:paopaoslam 2022-10-19 15:15 次阅读

摘要

我们提出了 Block-NeRF,一种神经辐射场的变体,可以表示大规模的场景。具体来说,我们发现,当使用 NeRF 渲染跨越多个街区的城市规模场景时,将场景分解为单独训练的子 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的场景,并允许对环境进行逐块更新。我们采用了几项架构更改,以使 NeRF 对在不同环境条件下数月捕获的数据具有鲁棒性。我们为每个单独的 NeRF 添加了外观嵌入、可学习的位姿细化和可控曝光,并引入了校准相邻 NeRF 之间外观的程序,以便它们可以无缝组合。我们从 280 万张图像中构建了一个 Block-NeRF 网格,以创建迄今为止最大的神经场景表示,能够渲染旧金山的整个社区。

video: (click the picture to view)

cf1514b0-4f63-11ed-a3b6-dac502259ad0.png

主要贡献

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

为了在大场景中应用神经辐射场(NeRF)模型,文章提出将大型场景分解为相互重叠的子场景 (block),每一个子场景分别训练,在推理时动态结合相邻 Block-NeRF 的渲染视图。

文章在 mip-NeRF 的基础上增加了外观嵌入、曝光嵌入和位姿细化,以解决训练数据横跨数月而导致的环境变化和位姿误差。

为了保证相邻 Block-NeRF 的无缝合成,文章提出了在推理时迭代优化这些 Block-NeRF 的输入外观嵌入以校准它们的渲染结果。

方法概述

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png 神经辐射场 (NeRF)是使用神经网络拟合辐射场,用于视图渲染的方法。然而,传统的 NeRF 很难被直接扩展到大场景应用。这是因为拟合大场景所需的神经网络也会很大,这会导致训练和推理渲染变得很困难。本文提出将大的场景划分为数个相互重合的小场景 (block)。如下图所示的丁字路口被划分为三个小场景(黄圈),针对每一个小场景单独训练一个 Block-NeRF。推理时合并覆盖目标视图范围的 Block-NeRF 渲染生成最终的视图。

cf5e8866-4f63-11ed-a3b6-dac502259ad0.png

mip-NeRF 拓展

文章基于 mip-NeRF,但是由于训练视图在长达数月的时间内采集,不可避免地出现场景光照不同、相机曝光不同、视图位姿存在误差等问题。为了解决这些问题,文章在 mip-NeRF 的基础上增加了外观嵌入和曝光作为神经网络的输入(如下图所示,其中 fσ 和 fc 分别为预测密度 σ 和颜色 RGB 的神经网络,x 为场景中的三维坐标点,d 表示视角)。

cfbffd94-4f63-11ed-a3b6-dac502259ad0.png

训练时使用生成式潜码优化的方法学习外观嵌入,消除天气光照等原因的影响。曝光则直接可以读取采集记录,只需对其进行正弦位置编码即可。

与此同时,训练视图的采集跨越了多个驾驶段,这些驾驶轨迹之间不可避免地存在位姿误差。Block-NeRF 训练时还同时优化每一个驾驶段的位姿偏移以降低位姿误差带来的影响。

街道视图中存在汽车、行人等瞬时物体,然而场景渲染通常只关注建筑、街道等静态结构。文章于是使用语义分割网络对训练视图中的动态物体进行掩蔽,这样神经辐射场就不会学习这些动态物体,而是只关注静态场景结构。

有时目标视图的相邻 Block-NeRF 可能距离上很近,但并不在目标视图的视野之内,文章在传统 NeRF 的两个神经网络 fσ 和 fc 之外,还增加了一个预测能见度的网络 fv。给定三维坐标 x 和视角 d , fv 预测该点在给定视角下的能见度。合成多个 Block-NeRF 的渲染时,能见度低于阈值的渲染不会被用于最终的合成。训练时能见度可以由相应点的透光率作为监督目标。

cfcb833a-4f63-11ed-a3b6-dac502259ad0.png

Block-NeRF 融合

为提高渲染效率,渲染目标视图时文章仅融合:

中心点在阈值半径内

且平均能见值高于阈值的 Block-NeRFs

满足这两个条件的 Block-NeRFs 以反距离加权的方式融合渲染视图。这里的距离选择相机到 Block-NeRFs 的二维空间距离。这样的融合方法既保证了渲染真实度又能够满足时空一致性。

为了保证不同视角下渲染的天气、光线等外观的一致性,文章还在推理时引入了外观嵌入迭代优化。给定一个 Block-NeRF 的外观嵌入,文章在锁定神经网络权重不变的基础上,优化相邻 Block-NeRFs 的外观嵌入,最大化其渲染视图的一致性。

实验结果

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

文章采集并开源了两个数据集:San Francisco Alamo Square Dataset 和 San Francisco Mission Bay Dataset,分布包含280万和1.2万图片。Alamo Square Dataset覆盖大约 0.5km2 ,采集自3个月周期内,包括不同光线条件和天气的数据。Mission Bay Dataset 涵盖的地理范围远远小于 Alamo Square Dataset,主要被用来与 NeRF做比较。

Table 2 显示 Block-NeRF 相较于NeRF 渲染效果更好。并且 block 数量越多越好。即便是保持神经网络总参数量不变,Block-NeRF 仍然优于 NeRF 并且推理速度在不考虑并行计算的前提下也大大提高。

cff1ac22-4f63-11ed-a3b6-dac502259ad0.png

Table 1 和 Figure 7 分别定量和定性地显示外观嵌入、曝光输入以及位姿优化都对提高渲染效果有帮助。

cffe6ffc-4f63-11ed-a3b6-dac502259ad0.png

d0335f32-4f63-11ed-a3b6-dac502259ad0.png

Figure 6 显示推理时外观嵌入优化可以将渲染从白天场景转换成黑夜场景,从而更好地与基准 Block-NeRF 匹配,增强渲染地时空一致性。

d0bb5392-4f63-11ed-a3b6-dac502259ad0.png

总结

cf0e10b6-4f63-11ed-a3b6-dac502259ad0.png

本文提出了Block-NeRF,采用 divide-and-conquer 的方法使用多个 Block-NeRFs 学习大型场景的不同分块,最终将这些Block-NeRFs 的渲染合成目标视图。这样的方法使得利用 NeRF 模型渲染城市规模的场景成为了可能。

此外 Block-NeRF 还在 mip-NeRF 的基础上,引入了外观嵌入优化、曝光输入和位姿细化等扩展,以解决训练数据横跨数月而导致的环境变化和位姿误差。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4733

    浏览量

    100410
  • Block
    +关注

    关注

    0

    文章

    26

    浏览量

    14678
收藏 人收藏

    评论

    相关推荐

    使用功率缩放

    电子发烧友网站提供《使用功率缩放库.pdf》资料免费下载
    发表于 10-18 10:24 0次下载
    使用功率<b class='flag-5'>缩放</b>库

    递归神经网络的结构、特点、优缺点及适用场景

    识别、时间序列分析等领域有着广泛的应用。本文将详细介绍递归神经网络的结构、特点、优缺点以及适用场景。 一、递归神经网络的结构 基本结构 递归神经网络的基本结构包括输入层、隐藏层和输出层
    的头像 发表于 07-04 14:52 989次阅读

    循环神经网络的应用场景有哪些

    循环神经网络(Recurrent Neural Network,简称RNN)是一种具有记忆功能的神经网络,能够处理序列数据,广泛应用于自然语言处理、语音识别、时间序列预测等领域。 自然语言处理
    的头像 发表于 07-04 14:39 935次阅读

    bp神经网络和卷积神经网络区别是什么

    结构、原理、应用场景等方面都存在一定的差异。以下是对这两种神经网络的比较: 基本结构 BP神经网络是一种多层前馈神经网络,由输入层、隐藏层和输出层组成。每个
    的头像 发表于 07-03 10:12 880次阅读

    神经网络模型的原理、类型、应用场景及优缺点

    网络模型的原理、类型、应用场景以及优缺点。 神经网络模型的原理 神经网络模型的基本原理是模拟人脑神经元的工作方式。人脑由大约860亿个神经
    的头像 发表于 07-02 09:56 956次阅读

    示波器观察波形的视图模式详解

    观察波形的三种主要视图模式:YT模式、滚动模式和XY模式,并深入分析每种模式的原理、特点、优缺点及适用场景,以期为读者在实际应用中提供有益的参考。
    的头像 发表于 05-23 17:18 2236次阅读

    LiDAR4D:基于时空新颖的LiDAR视角合成框架

    NeRF-LiDAR将图像和点云模态整合到激光雷达合成中,而诸如LiDAR-NeRF和NFL之类的仅激光雷达的方法探索了在没有RGB图像的情况下进行激光雷达重建和生成的可能性。
    发表于 04-10 12:34 1139次阅读
    LiDAR4D:基于时空新颖的LiDAR视角<b class='flag-5'>合成</b>框架

    NanoEdge AI的技术原理、应用场景及优势

    能耗并提高数据安全性。本文将对 NanoEdge AI 的技术原理、应用场景以及优势进行综述。 1、技术原理 NanoEdge AI 的核心技术包括边缘计算、神经网络压缩和低功耗硬件设计。边缘计算
    发表于 03-12 08:09

    谷歌模型合成工具怎么用

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变,Dream Fields是谷歌于2021
    的头像 发表于 02-29 17:33 727次阅读

    NeRF入门基础知识详解

    deep networks 更倾向于学习低频的函数,实际场景神经辐射场基本上都是高频的
    的头像 发表于 02-21 14:21 1261次阅读
    <b class='flag-5'>NeRF</b>入门基础知识详解

    基于NeRF/Gaussian的全新SLAM算法

    基于NeRF的SLAM算法采用全局地图和图像重建损失函数,通过微分渲染捕获稠密的光度信息,具有高保真度。
    的头像 发表于 01-26 10:48 594次阅读
    基于<b class='flag-5'>NeRF</b>/Gaussian的全新SLAM算法

    NeRF何去何从?GS SLAM到底哪家强?来看看最新的开源方案!

    Gaussian-SLAM提出了用于seeding和优化Gaussian splats的新策略,以将其从多视图离线场景扩展到RGBD序列。还扩展了Gaussian splats来编码几何图形并尝试
    的头像 发表于 12-26 16:38 1104次阅读
    <b class='flag-5'>NeRF</b>何去何从?GS SLAM到底哪家强?来看看最新的开源方案!

    Aleth-NeRF:低光增强与曝光纠正的新方向!不良光照场景下的新视角合成

    最经典的原始NeRF为例,局部隐蔽场通过NeRF的MLP网络产生,与原始NeRF的两个输出color和density相同,属于voxel-wise,全局隐蔽场则是一组可学习的网络参数,在每个
    的头像 发表于 12-21 16:43 983次阅读
    Aleth-<b class='flag-5'>NeRF</b>:低光增强与曝光纠正的新方向!不良光照<b class='flag-5'>场景</b>下的新视角<b class='flag-5'>合成</b>

    block schematic如何使用?

    block schematic这个如何使用,有使用指南吗?auido input 没东西可选啊。
    发表于 11-29 07:11

    基于几何分析的神经辐射场编辑方法

    神经辐射场作为近期一个广受关注的隐式表征方法,能合成照片级真实的多视角图像。但因为其隐式建模的性质,用户难以直观编辑神经辐射场建模对象的几何。面对这一问题,最新被IEEE TPAMI接收的论文
    的头像 发表于 11-20 16:56 521次阅读
    基于几何分析的<b class='flag-5'>神经</b>辐射场编辑方法