从多视角图像做三维场景重建 (CVPR'22 Oral)-电子发烧友网

我们介绍一篇2022 CVPR Oral的三维场景重建论文：Neural 3D Scene Reconstruction with the Manhattan-world Assumption，该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

论文链接：https://arxiv.org/abs/2205.02836

论文代码：https://github.com/zju3dv/manhattan_sdf

Project page：https://zju3dv.github.io/manhattan_sdf/

1. 引言

1.1 论文的问题描述

输入在室内场景采集的图像序列，论文希望能生成该室内场景的三维模型。该问题有许多应用，例如虚拟与增强现实、机器人等。

1.2 当前方法在这个问题的局限性

传统方法一般通过MVS（Multi-View Stereo）［1，2］做场景重建，首先根据多视角匹配来估计每个视角的深度图，然后将每个视角的深度在三维空间中做融合。这类方法最大的问题在于难以处理弱纹理区域、非朗伯表面，原因是这些区域难以做匹配，从而导致重建不完整。

Multi-view Stereo via Depth Map Fusion： A Coordinate Decent Optimization Method

最近，有方法提出基于隐式神经表示做三维重建。NeRF ［3］通过可微分的体积渲染技术从图像中学习隐式辐射场。NeRF可以实现有真实感的视角合成，但是几何重建结果噪音很严重，主要是因为缺乏表面约束。NeuS ［4］和 VolSDF ［5］使用有SDF（向距离场）建模场景的几何，并实现了基于SDF的体积渲染，可以得到相比于NeRF更加平滑的几何重建结果。此类方法都是基于光度一致性原理，因而难以处理弱纹理区域，在室内场景的重建质量很差。

NeRF： Representing Scenes as Neural Radiance Fields for View Synthesis

1.3 我们的观察和对问题的解决

为了克服室内场景重建在弱纹理平面区域的歧义性，我们在优化过程中基于曼哈顿假设采取了相应的几何约束。曼哈顿假设是一个被广泛使用的室内场景假设，即室内场景的地面、墙面、天花板通常被对齐在三个互相垂直的主方向，基于此我们对地面、墙面区域设计了对应的几何约束。

曼哈顿假设示意图

2. 论文方法

2.1 方法概述

论文使用神经隐式表示建模场景的几何、外观和语义，并从多视角图像优化该表示。具体步骤为：

1）使用可微分体积渲染技术，根据输入图像优化几何、外观。

2）预测墙面、地面的语义分割，并基于曼哈顿假设对这些区域采用相应的几何约束。

3）为了提升对语义分割不准确性的鲁棒性，我们提出联合优化策略来同时优化几何和语义，从而实现更高质量的重建结果。

2.2 基于SDF的体积渲染

为了采用体积渲染技术，我们首先将有向距离场转换为体积密度：

2.3 几何约束

我们首先使用DeepLabV3+ ［6］在图像空间分割地面、墙面区域。对于地面区域的每个像素，我们首先做体积渲染得到对应的表面点，通过计算有向距离场在该处的梯度得到法向方向，设计损失函数约束其法向竖直向上：

2.4 联合优化

几何约束在语义分割准确的区域可以起到很好的效果，但网络预测的语义分割在部分区域可能是不准确的，这会影响重建结果。如下图所示，由于语义分割不准确，导致加上几何约束之后重建结果变得更加糟糕。

为了克服这个问题，我们在3D空间中学习语义场。我们使用体积渲染技术将语义渲染到图像空间，并通过softmax归一化得到每个像素属于地面、墙面区域的概率，我们利用这个概率来加权几何约束：

�joint=∑�∈��^�（�）��（�）+∑�∈��^�（�）��（�）

同时，为了避免trivial solution（属于地面、墙面的概率被降为0），我们同时也用2D语义分割网络的预测计算交叉熵作为监督：

��=−∑�∈�∑�∈{�，�，�}��（�）log�^�（�）

3. 实验分析

3.1 Ablation studies

通过定性、定量的实验结果，我们发现使用体积约束能够提升在平面区域的重建效果，但也会由于语义分割的不准确性导致一些非平面区域的重建变差，通过使用我们提出的联合优化策略，可以全面地提升重建结果。

3.2 与SOTA方法的对比

我们在ScanNet和7-Scenes数据集上进行了和之前MVS方法、基于volume rendering的方法的对比，数值结果大幅领先于之前的方法。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
212

文章
28887

浏览量
209513
三维模型

三维模型

+关注

关注
0

文章
52

浏览量
13178

原文标题：浙大提出Manhattan-SDF：从多视角图像做三维场景重建 (CVPR'22 Oral)

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

基于安芯一号SLH89F5162的真三维立体图形显示

相应方位图像的一种空间三维显示，具有较高密度的视角间隔，视角数量多，可供多人360度视场裸眼同时观看，能自动调节正确的水平和垂直视差。本项目

发表于 10-19 15:16

基于纹理映射的医学图像三维重建

提出了一种基于纹理映射的体绘制算法，提高了图像的重建效率，增强了图像的重建效果。算法实现了对二维医学图像

发表于 12-14 11:10 •19次下载

基于FPGA的医学图像三维重建系统设计与实现

目前大部分的医学图像三维重建过程都是在PC机上完成的，由于PC机本身性能的限制和重建算法的复杂性，使得重建效率不高。针对这个问题，设计与实现了一个基于FPGA（Field Progra

发表于 03-15 13:52 •44次下载

AI+AR将用于智能三维重建领域

AI与AR的关系日渐微妙，正在不断融合、相互促进。在计算机视觉中, 三维重建是指根据单视图或者多视图的二维图像重建

发表于 09-21 10:33 •4688次阅读

如何使用单目视觉进行高精度三维场景重建技术研究

近年来，随着计算机硬件的不断快速更新，计算机的处理能力也不断变强。同时场景三维模型的获取技术越来越成熟，我们获得场景的三维模型数据的方式更多也更加方便了。而目前在基于单目和双目的

发表于 12-24 15:55 •7次下载

无人机图像处理技术之三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介 demi 在周一, 04/01/2019 - 11:30 提交航拍是无人机在实际场景中的重要应用。本系列文章将简单介绍无人

发表于 03-24 16:24 •7361次阅读

透明物体的三维重建研究综述

透明物体的三维重建一直以来都被认为是很有挑战性的问题。不同于传统重建算法对物体表面的漫反射属性假设，因为透明物体与光线之间存在复杂的，如反射和折射等，与视角相关的光学效应，将导致传统重建

发表于 04-21 14:21 •4次下载

基于多视角图片的高精度三维人脸重建综述

提岀了一种多阶段优化的方法来解决基于多视角图片在未知姿态、表情以及光照条件下的高精度三维人脸重建问题。首先，通过重新渲染合成的方法将参数化模型拟合到输入的

发表于 06-07 14:27 •5次下载

三维CT层间图像超分辨率重建与修复综述

三维CT层间图像超分辨率重建与修复综述

发表于 06-27 10:56 •25次下载

NVIDIA Omniverse平台助力三维重建服务协同发展

计算机视觉的进步为元宇宙的数字孪生应用打下坚实基础。在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。数字孪生开发者

发表于 10-13 09:45 •1267次阅读

深度学习背景下的图像三维重建技术进展综述

根据三维模型的表示形式可以将图像三维重建方法分类为基于体素的三维重建、基于点云的三维重建和基于网格的三维

发表于 01-09 14:26 •2792次阅读

NerfingMVS：引导优化神经辐射场实现室内多视角三维重建

既然Nerf可以表示场景的三维信息，一个自然的想法是能不能将NeRF应用到室内场景三维重建任务中呢。NeRF有着一些优势：相较于传统的MVS,SfM算法，NeRF蕴含了整个

发表于 02-13 11:20 •3274次阅读

三维重建：从入门到入土

经典三维重建系统的整个pipeline从相机标定、基础矩阵与本质矩阵估计、特征匹配到运动恢复结构（SFM），从SFM到稠密点云重建、表面重建

发表于 03-03 10:17 •1326次阅读

三维场景点云理解与重建技术

三维场景理解与重建技术主要包含场景点云特征提取、扫描点云配准与融合、场景理解与语义分割、扫描物体点云补全与细粒度

发表于 08-08 16:58 •1541次阅读

如何实现整个三维重建过程

在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全，因此三

发表于 09-01 11:06 •1865次阅读