PatchMatch MVS求解器中深度估计的挑战性问题-电子发烧友网

本文介绍了一种可学习的变形假设采样器（DeformSampler），用于解决精确PatchMatch多视图立体（MVS）中嘈杂深度估计的挑战性问题。我们观察到PatchMatch MVS求解器所采用的启发式深度假设采样模式对以下两个方面不敏感：（i）物体表面深度的分段平滑分布，（ii）沿着表面点射线方向的深度预测概率的隐式多模态分布。因此，作者开发了DeformSampler，以学习对分布敏感的样本空间，以便（i）沿着物体表面传播与场景几何一致的深度，（ii）拟合逼近实际深度沿射线方向的点级概率分布的拉普拉斯混合模型。作者将DeformSampler集成到可学习的PatchMatch MVS系统中，以提高在挑战性区域（如分段不连续的表面边界和纹理较弱的区域）的深度估计能力。在DTU和Tanks＆Temples数据集上的实验结果表明，与最先进的竞争对手相比，其表现优越且具有很好的泛化能力。

读者理解：

该方法的主要贡献是提出了一种可学习的变形假设采样器（DeformSampler），用于解决多视图立体匹配（PatchMatch MVS）中噪声深度估计的挑战问题。DeformSampler 通过学习分布敏感的样本空间，能够传播与场景几何一致的深度，并拟合逼近实际深度分布的拉普拉斯混合模型。

实验结果表明，该方法在 ETH3D 数据集上表现优异，甚至超过了其他最新的基于学习的 MVS 模型。

具体来说，该方法的创新点包括：

提出了一种可学习的变形假设采样器（DeformSampler），用于解决多视图立体匹配（PatchMatch MVS）中噪声深度估计的挑战问题。通过学习分布敏感的样本空间，DeformSampler 能够传播与场景几何一致的深度，并拟合逼近实际深度分布的拉普拉斯混合模型。

实验结果表明，该方法在 ETH3D 数据集上表现优异，甚至超过了其他最新的基于学习的 MVS 模型。

1 引言

这篇论文主要解决了多视图立体（MVS）中深度估计的挑战性问题。传统方法在低纹理、镜面和反射区域内的匹配困难，学习型方法引入全局语义信息以提高鲁棒性，但准确性与效率之间存在差距。学习型方法通常构建3D成本体，利用3D CNN进行深度回归。然而，资源有限限制了这些方法的成本体和CNN的3D形式。

为了解决这些限制，研究致力于减少成本体大小和修改正则化技术。近期出现的一种有前景的解决方案将传统的PatchMatch MVS转化为端到端框架，但这些方法未充分考虑场景内隐含的深度分布，导致深度估计性能下降。

因此，论文提出了DeformSampler，一种可学习的变形假设采样器，用于在学习型PatchMatch框架中学习隐含深度分布，指导可变形的假设采样。DeformSampler在传播和扰动阶段支持每个像素进行最优假设采样。通过平面指示器捕捉分段平滑深度分布，以实现结构感知的深度传播，并利用概率匹配器对深度预测概率的多模态分布进行建模，实现不确定性感知的扰动。集成DeformSampler到学习型PatchMatch框架中，能在具有挑战性的分段不连续表面边界和纹理较弱区域获得优秀的深度估计性能，并展现出在室外和室内场景中的强大泛化能力。

2 方法

本文提出了一种全新的学习型PatchMatch MVS框架，DS-PMNet，并嵌入了DeformSampler。这个框架能够以端到端的方式学习隐含深度分布，指导可变形的深度采样。论文总体框架在图2中展示，主要包括四个阶段的优化：初始化、传播、评估和扰动。其中，传播阶段通过平面指示器Pθ捕捉物体表面的分段平滑深度分布，指导结构感知的假设传播；而扰动阶段则利用概率匹配器Mθ模拟深度预测概率的多模态分布，指导不确定性感知的扰动。

具体实现中，DS-PMNet通过特征金字塔Ψ提取了不同尺度的特征，用于深度估计。在阶段I中，随机初始化参考图像的深度图。在阶段II，平面指示器Pθ利用自相似性特征编码，指导结构感知的假设传播，生成可靠的假设集合。在阶段III，概率匹配器Mθ模拟了深度预测概率的分布，输出不确定性，指导下一步的扰动。阶段IV则利用推断出的混合分布来引导扰动，进一步优化深度估计。这个框架能够提高深度估计性能，在图像特征和深度估计中起到关键作用。

此外，文中提到的平面指示器Pθ由两部分组成：内视图相关金字塔和平面流解码器。内视图相关金字塔利用卷积运算计算特征之间的相关性，而平面流解码器则逐渐推断出平面流场。概率匹配器Mθ则基于多视图成本金字塔，预测深度估计概率的分布参数，进一步提高深度估计的准确性。

最后，论文采用了负对数似然损失函数作为监督，用于监督深度估计的拟合混合拉普拉斯分布，进一步优化模型。总的来说，DS-PMNet框架通过DeformSampler的引导，能够提升MVS中的深度估计性能，对于深度估计及场景特征提取有着重要的作用。

3 总结

本文提出了一种可学习的DeformSampler，嵌入到PatchMatch MVS框架中，有助于在复杂场景中实现准确的深度估计。所提出的DeformSampler能够在传播和扰动过程中，帮助采样对分布敏感的假设空间。在多个具有挑战性的MVS数据集上进行了广泛实验，结果显示DeformSampler能够有效学习物体表面的分段平滑深度分布，可靠地传播深度，并成功捕捉深度预测概率的多模态分布，从而实现精细化的假设采样。与现有方法的比较也表明，我们的方法在MVS基准测试上能够达到最先进的性能水平。

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

函数

函数

+关注

关注
3

文章
4352

浏览量
63250
图像特征

图像特征

+关注

关注
0

文章
13

浏览量
7063
采样器

采样器

+关注

关注
0

文章
34

浏览量
2535

原文标题：读者理解：

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

滤波器设计过程中对射频有什么挑战

工作环境的变化而改变。接着，将会介绍被动互调(PIM)测量的设置，在满足滤波器产品要求的过程中，它可能是最具挑战性的规范，主要原因包括缺乏精确的模拟工具以及测量不准确。为清晰说明测试的过程，文中也提供测试

发表于 06-24 07:21

音频设计：比你所想象的更富挑战性

音频设计：比你所想象的更富挑战性 通常会认为20 Hz ~20 kHz常规频段的音频设计是基本的、不具挑战性的。但是本篇特别报道的作者----音频工程（audio engineering）的专家们对

发表于 09-16 10:02 •842次阅读

当前智能机器人发展若干挑战性问题

在本专场中，北京航空航天大学教授、北京航空航天大学机器人研究所名誉所长、长江学者特聘教授王田苗教授率先登场，为本专场做了题为“当前智能机器人发展若干挑战性问题”的大会报告。

发表于 07-09 10:44 •5507次阅读

Mipsology Zebra在深度学习推断的应用

Zebra 可消除深度学习推断中具有挑战性的编程及 FPGA 任务。Zebra 可轻松部署和适应广泛的神经网络及框架。

发表于 07-21 10:59 •978次阅读

Mipsology Zebra在<b class='flag-5'>深度</b>学习推断的应用

便携式医疗系统中无线监控的挑战性要求

本文探讨了便携式医疗系统中无线监控的挑战性要求。在设计高可靠性医疗设备时需要权衡各种工程环节，从超低功耗收发器和各种协议，到高效电源管理和传感器接口。

发表于 09-28 17:01 •2333次阅读

便携式医疗系统<b class='flag-5'>中</b>无线监控的<b class='flag-5'>挑战性</b>要求

Facebook为挑战性环境优化6DoF控制器追踪

Facebook进一步介绍关于最近用以优化控制器追踪性能的版本更新，尤其是针对具有挑战性的追踪环境，如包含圣诞树或假日装饰灯具的空间。

发表于 07-25 10:27 •751次阅读

基于多孔卷积神经网络的图像深度估计模型

针对在传统机器学习方法下单幅图像深度估计效果差、深度值获取不准确的问题，提出了一种基于多孔卷积神经网络（ACNN）的深度估计模型。首先，利用

发表于 09-29 16:20 •5次下载

基于多孔卷积神经网络的图像<b class='flag-5'>深度</b><b class='flag-5'>估计</b>模型

针对系统提供商最具挑战性需求的自定义模块

针对系统提供商最具挑战性需求的自定义模块

发表于 04-26 16:15 •4次下载

针对系统提供商最具<b class='flag-5'>挑战性</b>需求的自定义模块

深度神经网络的基本理论和架构

随着数学优化和计算硬件的迅猛发展，深度神经网络（Deep Neural Networks, DNN）（名词解释>）已然成为解决各领域中许多挑战性问题的强大工具，包括决策、计算成像、全息技术等。

发表于 04-11 12:24 •3669次阅读

介绍第一个结合相对和绝对深度的多模态单目深度估计网络

单目深度估计分为两个派系，metric depth estimation(度量深度估计，也称绝对深度估计

发表于 03-21 18:01 •6368次阅读

深度学习在语音识别中的应用及挑战

的挑战。二、深度学习在语音识别中的应用 1.基于深度神经网络的语音识别：深度神经网络（DNN）和循环神经网络（RNN）是

发表于 10-10 18:14 •1009次阅读

一种利用几何信息的自监督单目深度估计框架

本文方法是一种自监督的单目深度估计框架，名为GasMono，专门设计用于室内场景。本方法通过应用多视图几何的方式解决了室内场景中帧间大旋转和低纹理导致自监督深度

发表于 11-06 11:47 •494次阅读

单目深度估计开源方案分享

可以看一下单目深度估计效果，这个深度图的分辨率是真的高，物体边界分割的非常干净！这里也推荐工坊推出的新课程《单目深度估计方法：算法梳理与代码

发表于 12-17 10:01 •948次阅读

康谋分享 | 在基于场景的AD/ADAS验证过程中，识别挑战性场景！

基于场景的验证是AD/ADAS系统开发过程中的重要步骤，然而面对海量驾驶记录数据时，如何实现自动且高效地识别、分类和提取驾驶记录中的挑战性场景？本文康谋为您介绍IVEX软件识别挑战性场

发表于 08-28 10:16 •1209次阅读

建筑物边缘感知和边缘融合的多视图立体三维重建方法

航空建筑深度估计是三维数字城市重建中的一项重要任务，基于深度学习的多视图立体（MVS）方法在该领域取得了较好的成果。目前的主要方法通过修改MVS

发表于 11-07 10:16 •385次阅读