0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

第一种用于主动双目立体成像系统的深度学习方法

DPVg_AI_era 来源:未知 作者:李倩 2018-07-29 10:17 次阅读

本文是计算机视觉顶会ECCV 2018录取论文中备受关注的一篇,来自谷歌&普林斯顿大学的研究人员提出了第一个主动双目立体成像系统的深度学习解决方案,在诸多具有挑战性的场景中展示出最先进的结果。

深度传感器(Depth sensors)为许多难题提供了额外的3D信息,如非刚性重构(non-rigid reconstruction)、动作识别和参数跟踪,从而给计算机视觉带来了革新。虽然深度传感器技术有许多类型,但它们都有明显的局限性。例如,飞行时间系统(Time of flight systems)容易遭受运动伪影和多路径的干扰,结构光(structured light )容易受到环境光照和多设备干扰。在没有纹理的区域,需要昂贵的全局优化技术,特别是在传统的非学习方法中, passive stereo很难实现。

主动双目立体视觉(Active stereo)提供了一种潜在的解决方案:使用一对红外立体相机,使用一个伪随机模式,通过图案化的红外光源对场景进行纹理化(如图1所示)。通过合理选择传感波长,相机对捕获主动照明和被动光线的组合,提高了结构光的质量,同时在室内和室外场景中提供了强大的解决方案。虽然这项技术几十年前就提出了,但直到最近才出现在商业产品中。因此,从主动双目立体图像中推断深度的先前工作相对较少,并且尚未获得大规模的ground truth训练数据。

图1:ActiveStereoNet (ASN)通过使用 Intel Realsense D D435相机获得的一对经过修正的红外图像,产生平滑、详细、无量化的结果。

在主动双目立体成像系统中必须解决几个问题。有些问题是所有的双目系统问题共有的,例如,必须避免匹配被遮挡的像素,这会导致过度平滑、边缘变厚和/或轮廓边缘附近出现飞行像素。但是,其他一些问题是主动双目系统特有的,例如,它必须处理非常高分辨率的图像来匹配投影仪产生的高频模式;它必须避免由于这些高频模式的其他排列而产生的许多局部最小值;而且它还必须补偿附近和远处表面投影图案之间的亮度差异。此外,它不能接受ground truth深度的大型主动双目数据集的监督,因为没有可用的数据。

在这篇论文中,我们介绍了ActiveStereoNet,这是主动双目立体成像系统(active stereo systems)的第一个深度学习解决方案。由于缺乏ground truth,我们的方法是完全自我监督的,但它产生了精确的深度,子像素精度是像素的1/30;它没有遭到常见的过度平滑问题,保留了边缘,并且明确地处理了遮挡。

我们引入了一种新的重构误差(reconstruction loss),它对噪声和无纹理补丁(patches)更具稳健性,并且对光照的变化保持不变。我们提出的损失是通过基于窗口的成本聚合和自适应的支持权重方案优化的。这种成本聚合使边缘保留并使损失函数平滑,这是使网络达到引人注目的结果的关键。

最后,我们展示了预测无效区域(如遮挡)的任务是如何在没有ground truth的情况下完成的,这对于减少模糊至关重要。我们对真实数据和合成数据进行了大量的定量和定性的评估,证明了该技术在许多具有挑战性的场景中得到了state-of-the-art的结果。

图2:ActiveStereoNet的架构

ActiveStereoNet的架构如图2所示。我们使用一个两阶段的网络,其中一个低分辨率的成本体积被构建来推断第一视差估计。一个双线性上采样后的残差网络用来预测最终视差图。底部的Invalidation Network也被端到端地训练来预测置信度图。

图3:光度损失(左)、LCN损失(中)和建议的加权LCN loss(右)的比较。

我们提出的loss对于遮挡更强健,它不依赖于像素的亮度,也不受低纹理区域的影响。

实验和结果

我们进行了一系列实验来评估ActiveStereoNet(ASN)。除了分析深度预测的准确性,并将其与以前的成果相比之外,我们还提供消融研究的结果,以研究拟损失的每个组成部分会对结果造成什么影响。在补充材料中,我们还评估了我们提出的self-supervised loss 方法在passive (RGB) stereo中的适用性,该方案表现出更高的泛化能力,在许多基准测试中达到了令人印象深刻的结果。

双目立体匹配评估

在本节中,我们使用传统的双目立体匹配指标(如抖动和偏差),定性、定量地将我们的方法在实际数据的实验中与最先进的立体算法进行比较。

抖动与偏差

假设某立体声系统的基线标准为b,焦距为f,子像素视差精度为δ,则视差精度的深度误差e与深度Z的平方成正比。由于视差误差对深度的影响是可变的,一些简单的评估度量(如视差的平均误差)不能有效地反映估计深度的质量。而我们的方法首先标出深度估计的误差,然后计算视差中的相应误差。

为了评估ASN的子像素精度,我们记录了相机在平坦的墙壁前记录的100帧图像,相机距离墙壁的范围从500毫米到3500毫米不等,还有100帧,然后让相机成50度角朝向墙壁,再记录100帧,用来评估倾斜表面上的图像。在本例中,我们将得到的结果与高鲁棒性的平面拟合获得的“ground truth”进行对比评估。

图5.对最新技术的定量评估。

我们的方法的数据偏差降低了一个数量级,子像素精度为0.03像素,而且抖动非常低(参见文本)。我们还展示了距离墙壁3000毫米时,多种方案下预计出现的点云。请注意,尽管距离较远(3米),但其他方法相比,我们的结果噪音更低。

为了表示精度,我们将偏差计算为预测深度和真实值之间的平均误差l1。图5所示为关于我们所用的方法的深度偏差和传感器输出、现有最佳技术的局部立体化方法(PatchMatch,HashMatch),以及我们所使用的最先进的非监督式训练出的模型,并对点云做了表面法线着色处理的可视化操作。我们的系统在距墙壁全部距离上的性能都明显优于其他方法,并且其误差不会随着深度增加而显着增加。我们系统对应的子像素视差精度为1/30像素,这是通过使用上述方程(也在图5中给出)拟合曲线而获得的。这比其他方法的精度(不高于0.2像素)精确一个数量级。

为了表示噪声,我们将抖动(Jitter)计算为深度误差的标准偏差。图5表明,与其他方法相比,我们的方法在几乎每个深度上都能实现最低的抖动。

与现有最优技术的比较

在具有挑战性的场景中对ASN的更多定性评估如图6所示。可以看出,像PatchMatch和HashMatch这样的局部方法无法处理有源光和无源光的混合照明场景,因此会产生不完整的差异图像(缺失像素显示为黑色)。使用半全局方案的传感器输出更适合此类数据,但仍然容易受到图像噪声的影响(请注意第四列中的噪声结果)。相比之下,我们的方法可以产生完整的视差图并保留清晰的边界。

图6.对现有最佳技术的定性评估。我们的方法可以生成详细的视差图。而目前最先进的方法会受到无纹理区域的影响。传感器半全局方案的噪声更大,输出过于平滑。

关于真实序列的更多例子如图8(右)所示,其中我们给出了由表面法线着色的点云。我们的输出保留了所有细节,噪音很低。相比之下,我们使用自监督方法进行训练的网络产生了过度平滑的输出。

图8:在合成数据和真实数据上的评估

我们的结果也不存在纹理复制问题,这很可能是因为我们使用成本量来明确地对匹配函数进行了建模,而不是直接从像素密度中学习。即使训练数据主要是从办公室环境中捕获的,我们仍然发现,ASN很好地涵盖了各种测试场景,如起居室、游戏室,餐厅和各式各样的目标,比如人、沙发、植物、桌子等。具体如图所示。

讨论、局限性和未来方向

我们在本文中介绍了ActiveStereoNet(ASN),这是第一种用于主动双目立体成像系统的深度学习方法。我们设计了一个新的损耗函数来处理高频模式,照明效果和像素遮挡的情况,以解决自我监督设置中的主动立体声问题。我们的方法能够进行非常精确的重建,子像素精度达到0.03像素,比其他有源立体匹配方法精确一个数量级。与其他方法相比,ASN不会产生过于平滑的细节,可以生成完整的深度图,保留有清晰的边缘,没有乱飞的像素。而失效网络作为一个副产物,能够得出可用于需要遮挡处理的高级应用的视差置信度图。大量实验显示,使用NVidia Titan X显卡和最先进的方法,用于不同具有挑战性场景的处理任务,每帧运行平均时间为15ms。

局限性和未来方向

尽管我们的方法产生了令人信服的结果,但由于成本量的低分辨率,仍然存在透明对象和薄结构的问题。在未来的工作中,我们将提出解决方案来处理更高级任务的实施案例,比如语义分割。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 成像系统
    +关注

    关注

    2

    文章

    195

    浏览量

    13924
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121111

原文标题:ECCV18:谷歌普林斯顿提出首个端到端立体双目系统深度学习方案

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    双目立体视觉原理大揭秘(

    实用化,不仅将成为工业检测、生物医学、虚拟现实等领域的关键技术,还有可能应用于航天遥测、军事侦察等领域。目前在国外,双目体视技术已广泛应用于生产、生 活中。双目
    发表于 11-21 16:20

    双目立体视觉原理大揭秘(二)

    要求较高。根据双目立体视觉CCAS的原理,般分为以下步骤:第一、相机标定。首先先对双目系统中的
    发表于 11-21 16:22

    双目立体视觉的运用

    ` 本帖最后由 ketianjian 于 2016-3-3 09:38 编辑 双目立体视觉,这是门有着广阔前景运用的学科,也是一种非常重要的机器视觉运用形式。通俗来讲,就是利用
    发表于 03-03 09:36

    三极管各位大神,你们见过第一种画法吗?

    各位大神,你们见过第一种画法吗?感觉第一种画法我不会分析啊
    发表于 05-19 21:29

    嵌入式系统学习方法

    很多新手都问过嵌入式系统学习方法,好的学习方法可以事半功倍,学习嵌入式系统,掌握了好的学习方法,自然可以水到渠成。本篇文章就来说说嵌入式
    发表于 12-17 06:42

    双目立体视觉在嵌入式中有何应用

    双目立体视觉(BinocularStereoVision)是机器视觉的一种重要形式,因其可简单地利用左右摄像机中的图像信息计算得到相机视野中物体相对于摄像机的深度信息使得该技术拥有广泛
    发表于 12-23 07:19

    一种快速双目立体匹配方法_梅金燕

    一种快速双目立体匹配方法_梅金燕
    发表于 03-19 11:46 0次下载

    模型驱动深度学习的标准流程与学习方法解析

    模型驱动的深度学习方法近年来,深度学习在人工智能领域系列困难问题上取得了突破性成功应用。
    的头像 发表于 01-24 11:30 4920次阅读
    模型驱动<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的标准流程与<b class='flag-5'>学习方法</b>解析

    一种模糊森林学习方法

    针对随机森林学习方法训练数据时存在的过拟合问题,通过改进各决策节点的决策函数设计一种模糊森林学习方法。利用高斯隶属度函数构建决策树上各节点的决策函数,将确定决策路径转换为模糊决策路径。根据样本从根
    发表于 02-23 11:09 1次下载

    一种基于块对角化表示的多视角字典对学习方法

    字典学习作为一种高效的特征学习技术被广泛应用于多视角分类中。现有的多视角字典学习方法大多只利用多视角数据的部分信息,且只
    发表于 04-20 14:04 1次下载

    文详细剖析深度相机之双目成像

    文章导读 本文通过介绍双目立体视觉的成像过程,带大家了解双目视觉如何从两个不同视角的成像平面中恢复出物体三维几何信息,重建周围景物的三维形状
    的头像 发表于 04-26 13:36 4141次阅读
    <b class='flag-5'>一</b>文详细剖析<b class='flag-5'>深度</b>相机之<b class='flag-5'>双目成像</b>

    双目立体视觉深度测量步骤介绍

    深度信息恢复是计算机视觉领域的个重要研究内容。使用传统的光学成像系统对不同距离的物体成像时,需要机械移动会造成图像放大率变化,导致
    的头像 发表于 06-14 13:43 2918次阅读

    使用深度学习方法对音乐流派进行分类

    电子发烧友网站提供《使用深度学习方法对音乐流派进行分类.zip》资料免费下载
    发表于 02-08 10:02 1次下载
    使用<b class='flag-5'>深度</b><b class='flag-5'>学习方法</b>对音乐流派进行分类

    基于深度学习的散射成像研究进展

    卷积神经网络(CNN)是一种用于对目标进行重建、分类等处理的深度学习方法。自2016年深度学习
    发表于 05-24 09:51 333次阅读
    基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的散射<b class='flag-5'>成像</b>研究进展

    一种端到端的立体深度感知系统的设计

        本文提出了一种生产化的端到端立体深度感知系统设计,可以完成预处理、在线立体校正和立体
    的头像 发表于 05-26 16:12 741次阅读
    <b class='flag-5'>一种</b>端到端的<b class='flag-5'>立体</b><b class='flag-5'>深度</b>感知<b class='flag-5'>系统</b>的设计