建筑物边缘感知和边缘融合的多视图立体三维重建方法-电子发烧友网

转载自：数智地球

航空建筑深度估计是三维数字城市重建中的一项重要任务，基于深度学习的多视图立体（MVS）方法在该领域取得了较好的成果。目前的主要方法通过修改MVS 框架实现建筑物的深度估计，缺乏对建筑物内在结构的考虑，易导致精度不足等问题。

本文提出了一种新颖的由粗到细的多视图立体三维重建框架 EG-MVSNet，利用边缘信息感知抽取机制以及边缘信息多维融合机制实现了建筑物边缘信息指导的深度估计，使得模型能够估计准确的建筑物深度图，进而实现高精度的建筑物三维点云重建。

我们分别在WHU-MVS 数据集和LuoJia-MVS 数据集上进行大量实验，实验结果表明我们的方法达到了最佳水平，并具有在其他领域推广使用的潜力。本文相关科研成果已于2023年12月被ISPRS期刊接收。

背景介绍

近年来，MVSNet通过构建基于CNN特征的代价体，并使用3D CNN对其进行正则化，在获取深度图等任务中表现出色。一些研究人员尝试将该方法应用于基于航空图像的大规模航空MVS重建，如 RED-Net、MS-REDNet 和 HDC-MVSNet，却未考虑建筑物体本身结构特征，导致重建精度较低。

具体来说，航拍视角通常会将建筑物与相邻地形紧紧相连，因此当航拍图像采用倾斜摄影、照明不足或图像分辨率较低时，较难分辨出建筑物与地形的边缘，导致相邻地形的边缘干扰建筑物表面深度值的分布，我们将该现象定义为深度粘连。该问题会导致航拍建筑物深度估计不准确，进一步影响到建筑物的精确重建。

如图1中(b)所示，可以清楚地观察到，不考虑建筑物边缘信息的通用方法在航空建筑物图像深度估计结果中容易出现前景（建筑物）与背景（地形）之间深度粘连的问题。

图1 深度粘连问题的对比结果

在边缘检测领域，边缘信息明确对应着剧烈的梯度变化，因此融合边缘信息有助于获得更精确、更锐利的遮罩，缓解深度粘连问题。如图1中(c)和(d)所示，在引入边缘特征信息后可获得更加精确的结果。综上所述，如何提取有效的建筑物边缘信息，同时将其融合至MVSNet网络框架中是本文的主要研究内容。

方法介绍

2.1 整体框架

图2 EG-MVSNet框架。网络由两部分组成，分别获得边缘图、粗深度图和精深度图（红框中展示了各图的细节对比）。图中粗体部分为提出的模块，SFENet和代价体正则化网络的架构源自RED-Net。

网络流程描述：

（1）建筑物边缘特征提取：第一部分的目的是获取精确可靠的建筑边缘特征，以便实现特征融合。具体来说，为了有效编码边缘特征，我们提出了一个边缘感知网络(Edge-Sensitive Network, ESNet)。基于提取的边缘特征，可以通过可微的单映性变换构建边缘特征体，该特征体可以和标准代价体进行融合，从而在第二部分对深度估计隐式地三维引导正则化。为确保 ESNet 主要关注建筑边缘特征而非其他无关特征，我们利用类似于 UNet 的边缘预测分支（EPB）预测边缘图，并利用建筑边缘深度损失（BED-Loss）计算边缘图与生成的GT真实边缘图之间的损失，从而实现对于边缘提取分支的约束。

（2）建筑物边缘特征融合：第二部分旨在将建筑边缘特征融合至标准MVS框架，即分别从2D和3D两个维度对深度图预测进行引导。为了实现隐式的三维引导，设计体间自适应融合模块(Inter-volume Adaptive Fusion Module, IAFM)融合边缘特征体和标准代价体，从而得到边缘引导代价体，进一步通过3D-UNet来预测粗深度图。为了实现显式的2D引导，设计边缘深度细化模块（EDRM），利用边缘特征来细化粗糙深度图，得到细化的深度图。

2.2 边缘感知网络(ESNet)

为提取精确的建筑物边缘特征我们提出ESNet 。目前的边缘检测网络缺乏识别航空图像中建筑物边缘的能力，因此ESNet 的设计考虑到了建筑物和MVSNet的特点。具体来说，由于索贝尔算子在经典的边缘检测算法中被广泛用于获取线性信息，因此为了捕捉建筑物的刚性结构，我们将传统的索贝尔算子转化为动态的索贝尔核（DSK）,如图3所示。

图3 不同形式的索贝尔算子和可学习索贝尔核的图示。(a) 显示了四种不同形式的不可学习索贝尔算子。(b) 显示参数化后的可微分索贝尔核

基于上述动态的索贝尔核，可以将索贝尔算子转换为可学习的卷积核实现模型优化，提高模型对于线性特征的编码能力。线性特征是由水平线、垂直线和斜线组成的，如果仅使用单一方向的线性特征提取 DSK（如 0° DSK 或 90° DSK），提取的斜线特征往往不够充分。因此，我们将上述不同的 DSK 组合至同一层中，实现对任意方向的线性特征进行编码，有效捕捉了建筑物的边缘结构。

图4 ESNet图示。左图：ESNet 由三个级联 DSK卷积组成。右图：每个DSK卷积层的四路DSK

DSK 卷积层示意图如图4所示，使用四个不同方向的可微分DSK构建 DSK卷积层从而实现对于复杂建筑的边缘感知，进一步将每个分支提取的特征图串联起来，得到最终的建筑物边缘特征图。每个分支分别对应 0° DSK、45° DSK、90° DSK 和 135° DSK，每个分支使用不同类型的可微分 DSK 来提取线性特征。使用两个卷积层对特征进行去噪和降采样，融合各分支提取的特征之后，得到最终的建筑边缘特征图。DSK卷积层的公式定义如下：

其中，[·]表示连接操作，wbi 分别代表各分支的卷积权重。

2.3 边缘预测网络(EPB)

基于ESNet提取的边缘特征，我们提出了一个类似于UNet的边缘预测分支。通过对边缘特征进行回归，约束ESNet，使网络重点关注建筑物边缘特征，同时减少对其他无关特征的提取。考虑到边缘图预测类似于语义分割任务，且UNet在语义分割任务中已经取得了巨大成功，因此我们考虑在UNet的基础上设计我们的边缘图预测分支，对边缘特征进行回归以生成边缘图用于损失计算。EPB的整体架构如图2右上角所示。

具体来说，EPB使用2D UNet网络回归参考图像边缘特征，得到边缘图。EPB采用了编码器-解码器结构，可以有效地从宽广的感受野中收集邻近信息，而不会产生过多的内存和计算消耗。在下采样阶段，边缘特征被逐步下采样为对应于不同尺度的四个边缘中间特征图。随后，解码器对边缘中间特征图进行上采样，以恢复原始图像大小，获得边缘图。

EPB明确利用边缘特征，同时隐式地优化了深度图，有效减轻了深度粘连问题。这一预测过程提高了边缘特征的准确性和可靠性，而边缘特征在我们的整体框架中发挥着关键作用。此外，EPB提供可视化结果，对于验证方法的有效性并确保其达到预期目标至关重要。

2.4 体间自适应融合模块(IAFM)

IAFM 的设计目的是将第1部分提取的2D建筑边缘特征融入到MVS框架中，以此来指导3D代价体的正则化。因此需要将2D边缘特征转换为3D特征，以实现这种结合。MVSNet中的3D代价体是通过匹配不同深度、不同视图以及不同空间位置的2D特征点之间的相似性来构建的。受这一机制的启发，我们也采用了可微分单映性变换（differentiable homography warping）来构建3D边缘特征体，变换公式如下所示：

式中，T, K 分别代表相机的内外参数。通过上述操作，我们将2D边缘特征转换至3D域。然而，在构建的边缘特征体中，并非所有的边缘匹配信息都是有效的，我们的目标是在融合过程中只将有效信息有选择地融合到3D代价体中，而忽略无关信息。直接求和可能会导致边缘特征体中的无效代价信息影响到代价体中的有效代价信息，如表面代价信息。因此，如果能自适应地将有效的边缘代价信息整合到代价体中，就能减轻无效代价信息的影响。

受启发于注意力机制，我们提出了一种基于注意力机制的体间自适应融合模块（IFAM），通过利用注意力机制（由多个叠加卷积构建）来增强边缘代价信息，抑制非边缘代价信息，从而增强边缘特征体与代价体的融合。我们的IFAM 结构如图5所示。

图5 IFAM图示

具体来说，IFAM 通过应用多个带跳转连接的叠加卷积来计算边缘特征体的边缘增强体。同样，标准代价体的信息增强体也通过类似的机制获得。IFAM 通过元素相加的方式实现融合，在两个卷积层之后得到最终的边缘引导代价体。因此，IFAM可以定义成如下公式：

综上，IAFM即可通过使用边缘特征引导标准代价体，进而获得更精确、更有效的深度图。

2.5 边缘深度细化模块(EDRM)

然从概率体中得到深度图是一个有效的输出，但由于正则化过程中涉及到较大的感受野，可能会出现深度边界过度平滑或模糊等问题，这是语义分割和图像去噪任务中的一个常见问题。因此，可以在粗深度图中加入边缘特征，以获得更详细的边缘信息并明确深度边界，进而缓解上述问题。

受此启发，通过探索使用2D边缘特征完善初始粗深度图，进而增强建筑边缘深度估计结果并提高深度图的整体质量。因此提出边缘深度细化模块（EDRM），利用提取的参考边缘特征来优化深度图。

EDRM的结构见图2右下方。在该模块中，我们首先将粗深度图Dc与边缘特征Fe0连接起来，然后将通过应用于粗深度图的两个卷积层获得的边缘残差信息纳入其中。这一聚合过程能够整合边缘信息，并生成边缘增强深度图。最后，使用四个卷积层对边缘增强深度图进行过滤，生成细化深度图Dr。EDRM的公式可以定义为：

实验结果

3.1 WHU-MVS数据集

EG-MVSNet在WHU-MVS数据集上的结果如下表1所示：

表1 EG-MVSNet在WHU-MVS数据集定量分析

我们在WHU-MVS数据集上与现有最优方法的定量对比如上表所示。我们具体对比了两种视图作为输入(三视图和五视图)的结果，从结果上可以看出我们的方法都取得了最优性能。其中，我们的方法在MAE指标上，在三视图上得到了0.097的结果，在五视图上得到了0.081的结果，相较其他方法均得到了显著提升。

EG-MVSNet在WHU-MVS数据集上深度估计对比图如下图6所示：

图6 EG-MVSNet在WHU-MVS数据集深度估计对比图

图6展示了EG-MVSNet与大多数最优方法的定性结果对比。如图中边缘图的结果可以看出，我们的方法能够准确的估计出建筑物的边缘图。对比图中局部细节的深度图结果可以看出，我们的方法能够估计出更加准确的深度结果，有效的解决了深度粘连的问题。

3.2 LuoJia-MVS数据集

EG-MVSNet在Luo-Jia-MVS数据集上的结果如下表2所示：

表2 EG-MVSNet在LuoJia-MVS数据集定量分析

表2展示了我们的模型的其他地物要素类型数据集上的泛化能力。从上表可以看出无论是在三视图估计亦或五视图的深度估计上，我们的模型均可以取得相对不错的效果。

EG-MVSNet在LuoJia-MVS数据集上可视化效果对比图如下图7所示：

图7 EG-MVSNet 在LuoJia-MVS数据集上可视化效果对比图

从图7可以看出，相比较于其他方法深度估计结果所展现出的深度粘连问题，我们的方法得益于能够准确的估计出建筑物的深度图并且进行充分的融合，能够有效的解决深度粘连的问题，进一步的提升了模型深度估计的质量。

3.3 边缘特征可视化

图8 边缘特征可视化结果

图8为模型提取的边缘特征图可视化结果，观察可知基于DSK卷积层，模型提取了十分准确的建筑边缘线性特征。从图中右侧部分可以看出模型估计的边缘图和原始图像中建筑物的边缘十分贴合，进一步证明了模型估计边缘的准确性。

3.4 重建结果

如图9所示是我们的模型对于城市区域的点云重建结果：

图9 城市区域点云重建实验结果

如图9所示，EG-MVSNet通过引入建筑物边缘信息，基于高精度深度图，较好地完成了城市区域的点云重建任务。

结论

我们提出了一种用于大规模航空建筑物多视图立体的边缘信息引导深度推理网络 EG-MVSNet，通过引入建筑物边缘特征信息缓解深度粘连的问题，从而进一步提高了估计深度图的精度。

该网络包括用于提取建筑物边缘特征的边缘感知网络（ESNet）、用于建筑物边缘预测网络（EPB）和用于边缘信息融合的体间自适应融合模块（IAFM）以及边缘深度细化模块（EDRM）。

实验结果表明，我们提出的方法达到了最先进的性能，与所有列出的方法相比，具有极强的泛化能力。此外通过额外的定性实验以及可视化展示证明了我们的方法能够有效的提取建筑物的边缘信息，有效的解决了深度粘连的问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

航空

航空

+关注

关注
2

文章
797

浏览量
27422
三维重建

三维重建

+关注

关注
0

文章
26

浏览量
9948
深度学习

深度学习

+关注

关注
73

文章
5512

浏览量
121500

原文标题：建筑物边缘感知和边缘融合的多视图立体三维重建方法

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

大型水利水电工程建筑物三维可视化建模技术研究

或部件;能够通过独立的数学描述各模块的特征。三维可视化模型模块之间的关系决定，对建筑物实体的描述可以通过以下方法实现：针对单纯以简单物体粘合形式构成的物体可以通过空间分割描述，如长方体、圆柱体等;针对

发表于 10-22 08:09

怎样去设计一种基于RGB-D相机的三维重建无序抓取系统？

为什么要开发一种三维重建无序抓取系统？三维重建无序抓取系统是由哪些部分组成的？三维重建无序抓取系统有哪些关键技术和创新点？

发表于 07-02 06:29

如何去开发一款基于RGB-D相机与机械臂的三维重建无序抓取系统

基于RGB-D相机与机械臂的三维重建无序抓取系统有哪些关键技术？如何去开发一款基于RGB-D相机与机械臂的三维重建无序抓取系统？基于RGB-D相机与机械臂的三维重建无序抓取系统是由哪些部分组成的？

发表于 09-08 06:12

仿古建筑南普陀寺三维重建方法研究

本文以厦门南普陀寺内的大雄宝殿为虚拟建模对象，研究了结合3DS MAX 和MultiGen Creator对古建筑三维重建的新技术方法，解决了虚拟古建筑在

发表于 12-19 14:08 •13次下载

MC三维重建算法的二义性消除研究

面绘制法进行三维重建是三维重建技术的主要方法，Marching Cubes(移动立方体)算法是经典的面绘制法。本文在剖析了MC 算法的基础上，针对其存在的二义性问题，给出了消除二义性

发表于 01-22 12:02 •21次下载

基于FPGA的医学图像三维重建系统设计与实现

目前大部分的医学图像三维重建过程都是在PC机上完成的，由于PC机本身性能的限制和重建算法的复杂性，使得重建效率不高。针对这个问题，设计与实现了一个基于FPGA（Field Programmable Gate Array，现场可编

发表于 03-15 13:52 •44次下载

三维建筑物精细模型重建

基于单幅图像的城市建筑物建模是计算机图形学和计算机视觉的一个研究热点．针对具有显著重复结构特征的单幅城市建筑物输入图像，提出了一种通过简单交互方便、快速地生成建筑物三维模型中精细细节结

发表于 01-08 16:17 •0次下载

AI+AR将用于智能三维重建领域

AI与AR的关系日渐微妙，正在不断融合、相互促进。在计算机视觉中, 三维重建是指根据单视图或者多视图的二

发表于 09-21 10:33 •4650次阅读

NVIDIA Omniverse平台助力三维重建服务协同发展

计算机视觉的进步为元宇宙的数字孪生应用打下坚实基础。在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建

发表于 10-13 09:45 •1228次阅读

深度学习背景下的图像三维重建技术进展综述

根据三维模型的表示形式可以将图像三维重建方法分类为基于体素的三维重建、基于点云的三维重建和基于网格的三维

发表于 01-09 14:26 •2657次阅读

NerfingMVS：引导优化神经辐射场实现室内多视角三维重建

既然Nerf可以表示场景的三维信息，一个自然的想法是能不能将NeRF应用到室内场景三维重建任务中呢。NeRF有着一些优势：相较于传统的MVS,SfM算法，NeRF蕴含了整个场景的信息，所以有潜力重建出低纹理区域的

发表于 02-13 11:20 •3167次阅读

三维重建：从入门到入土

经典三维重建系统的整个pipeline从相机标定、基础矩阵与本质矩阵估计、特征匹配到运动恢复结构（SFM），从SFM到稠密点云重建、表面重建、纹理贴图。熟悉SFM的工程师已经是行业内的佼佼者，能掌握

发表于 03-03 10:17 •1245次阅读

如何实现整个三维重建过程

在计算机视觉中，三维重建是指根据单视图或者多视图的图像重建三维信息的过程。由于单视频的信息不完全

发表于 09-01 11:06 •1797次阅读

基于光学成像的物体三维重建技术研究

三维重建的一种重要方法，具有成本低、精度高等优点，因此越来越受到人们的关注和青睐。本文就基于光学成像的物体三维重建技术进行研究和探讨。

发表于 09-15 09:29 •940次阅读

留形科技借助NVIDIA平台提供高效精确的三维重建解决方案

本案例中，留形科技借助 NVIDIA Jetson 和 Omniverse 平台，实现边缘设备上的实时、全彩、无损三维重建，从而在建筑细节捕捉、大型基础设施的数字孪生等应用中，大幅提升三维

发表于 09-09 09:42 •524次阅读

搜索历史

建筑物边缘感知和边缘融合的多视图立体三维重建方法

评论

大型水利水电工程建筑物三维可视化建模技术研究

怎样去设计一种基于RGB-D相机的三维重建无序抓取系统？

如何去开发一款基于RGB-D相机与机械臂的三维重建无序抓取系统

仿古建筑南普陀寺三维重建方法研究

MC三维重建算法的二义性消除研究

基于FPGA的医学图像三维重建系统设计与实现

三维建筑物精细模型重建

AI+AR将用于智能三维重建领域

NVIDIA Omniverse平台助力三维重建服务协同发展

深度学习背景下的图像三维重建技术进展综述

NerfingMVS：引导优化神经辐射场实现室内多视角三维重建

三维重建：从入门到入土

如何实现整个三维重建过程

基于光学成像的物体三维重建技术研究

留形科技借助NVIDIA平台提供高效精确的三维重建解决方案