一种端到端的立体深度感知系统的设计-电子发烧友网

本文提出了一种生产化的端到端立体深度感知系统设计，可以完成预处理、在线立体校正和立体深度估计，并支持纠偏失败后的单目深度估计备选方案。同时，该深度感知系统的输出应用于一种基于智能眼镜拍摄的视角生成管道，创造出具有3D计算摄影效果的视觉效果。此外，该系统设计可以在手机的严格计算预算内运行，具有通用性，可以适用于各种品牌的智能手机。该论文的设计是为了解决智能眼镜中的深度感知问题，可以为智能眼镜提供更好的增强现实体验。

1 前言

本文介绍了一种生产化的端到端深度感知系统，包括预处理、在线立体校正、立体深度估计并支持单目深度估计的备用方案。该系统的输出结果应用于视角生成的渲染管道，创建具有3D计算摄影效果的效果。该系统设计具有通用性和稳健性，可以用于不同品牌的主流手机。

我们的技术和系统贡献包括：

详细描述了一个端到端的立体系统，并提供了小心的设计选择和备用方案，这些策略可以成为其他类似深度系统的基线；

引入了一种新的在线校正算法，具有快速和稳健的特点，有助于提高立体视觉的准确性；

提出了一种新颖的策略，共同设计立体网络和单目深度网络，使两个网络的输出格式相似，从而更好地利用他们的结构信息；

证明了在计算预算有限的情况下，本文的量化网络实现了竞争性的准确度，可以应用于计算资源有限的场景。

2 相关背景

本文关注于构建用于灵活智能眼镜的完整立体系统，该系统具有鲁棒性和轻量化处理，能够在线校正，具有用于提显和3D效果等功能。现有工作多集中在系统的某些组件，很少有文章着眼于整个系统设计。对于在线立体校正，因为几乎所有实际立体系统都存在校正问题，研究者尝试了一些方法，其中的一个是在匹配代价中只利用水平梯度或使用包含小的垂直视差样本进行匹配代价训练等。对于单目深度估计，有监督和无监督方法都被用于深度学习中，输出通常是相对深度/视差。对于立体深度估计，最近的研究中，立体匹配的特征学习通过深度学习进行替代，目前主要关注于端到端学习，有2D CNNs、3D CNNs和RNNs等三种类型的架构。其中RNN方法得到最先进的性能，但无法在设备上运行，近期的工作则尝试着使立体网络在设备上运行更快。

3 系统概述

本文提出了一种基于智能眼镜的深度感知计算摄影系统。该系统配备一对硬件同步的鱼眼相机，可拍摄场景图像并将其传输至智能手机进行进一步处理。作者使用在线校准和校准算法估计外部和内部参数进行准确的校准，使用相对视差来创建深度计算摄影效果，并通过共享数据集训练两个网络以实现相同的下游处理。最终，预测的视差和相应的图像被传递到渲染流水线，以创建最终的三维效果。

4 在线校正

根据输入的鱼眼图像，通过计算精确的对应特征点，然后在原始图像和重新校正后的图像中保持世界坐标系与立体系统相对，来估计两个摄像机的旋转角度，从而进行在线校正。此方法通过估计相对尺度来补偿焦距随温度的变化，最终使得双视图立体算法更加准确和鲁棒。其中，相对俯仰角是相对的，而绝对俯仰角是一个自由参数。

4.1 Projection model - 投影模型

该部分内容介绍了通过投影模型计算两张图片中点的相对位置和姿态。其中，对内参矩阵和径向畸变进行了校正。通过将点投影到不同的相机中并估计其在两张图片中的深度，可以计算相机之间的相对方向和绝对的旋转和偏航。通过引入尺度修正，可以进一步约束相机之间的相对高度。

4.2 Rectification algorithm - 矫正算法

该算法通过使用Harris角点和层次亚像素ZSSD特征匹配器在图像间匹配特征点，并配合使用鲁棒最小二乘法求解方程组来实现对图像的矫正。该算法能够可靠地提取到特征点并计算出矫正角度。算法采用四个参数模型，包括∆ωx、∆ωy、∆ωz和∆f ，并且通过内点控制实现超约定系统的求解。对于每个匹配，它的表现很稳定并产生了很好的结果。

5 Co-design of monocular and stereo networks - 单目和立体网络的联合设计

本文提出了一种新的方法来协同设计立体和单目深度网络，以使其输出具有一致性，轻量级并且尽可能精确。该方法通过将单目深度网络训练为预测相对深度和相机运动，而不是绝对深度，来保持输出格式的一致性。接着，作者设计了一个立体网络，使用相同的特征提取器来预测相对视差。为了保持一致性，作者还使用了可训练的缩放和偏移参数，并使用一个损失函数来同时考虑单目和立体网络的输出。该方法在联合训练中表现出很好的稳定性和精度。

5.1 Stereo network - 立体网络

作者设计了一个立体视网络，其组件灵感来源于经典的和深度的立体视方法:

一个编码器，从输入的立体图像中独立提取多分辨率特征和特征，其中 l = 1 … L，用于 L 层特征金字塔。

利用余弦距离比较左右特征距离的三维代价体

使用许多中间层将代价体和参考图像的图像特征作为输入，并汇总视差信息。因为中间层直接从代价体和参考图像获取信息，所以它们可以在立体匹配线索较弱（例如在无纹理区域）或缺失时（例如在半遮挡区域）更好地利用单眼深度线索。

粗到细解码器以预测输出视差图。输出视差图的分辨率与输入右图像相同。每个解码器模块结合低分辨率解码器模块的输出和相同分辨率中间层的输出。

5.2 Monocular network - 单目网络

我们设计了一个单目深度估计网络，其包含三个组件：

用于提取多分辨率图像特征f_l=1...L的编码器；

中间层用于聚合深度信息；

粗到细的解码器用于预测视差图。

5.3 Shared network components - 共享网络组件

作者研究了单目深度估计和立体视觉之间的联合训练，从而提高了深度估计的质量。在共享网络组件方面，该文使用相同的编码器、中间层和解码器，同时使用立体代价体模块，从而提高网络的表现。为了提高效率，文章使用反向残差模块进行所有层的量化，并将权重和激活量化为8位。同时，输出层保持为32位来获得亚像素分辨率。其损失函数使用平滑L1损失和梯度损失项来训练网络。

5.4 Novel training datasets - 新型训练数据集

本文提出了一种通过渲染内部单目数据集来获得立体数据集以进行联合训练的方法。为了使立体数据集具有逼真性和挑战性，作者对其进行了数据增强（亮度、对比度、色相、饱和度、jpeg压缩等），并在遇到高光反射和无效区域（由深度流水线中的变形和矫正引起）时进行了训练，使网络能够忽略这些干扰。文章还探讨了简化立体数据集生成的方法，使得该数据集比任何现有的训练数据集都更具多样性。

6 Novel view synthesis - 新视角合成

本文采用基于LDI的方法来实现新视角合成。对于立体数据集的创建，使用单目真实深度和彩色图像来创建纹理网格，并渲染第二个视角。对于3D效果，使用来自立体系统的预测和预定义的轨迹来生成平滑的新视角视频。其中LDI是层深度图，可以通过LDI修复插值法推测被遮挡的几何形状。

7 实验

在本文中，作者介绍了一种新的立体视觉深度估计方法，即使用共享编码器、中间层和解码器的高效单目网络Tiefenrausch和附加的成本体积模块来构建立体网络Argos。对于生产模型，作者使用4M内部iPhone数据集重新训练了Tiefenrausch，并使用FBGEMM后端进行量化感知训练(QAT)，从而实现了高精度。作者还使用Sceneflow数据集进行了对比实验。

作者在三星Galaxy S8 CPU上对流水线进行了基准测试。校正流水线需要300-400ms，立体网络需要大约965ms。流水线的其他部分总共需要比这两个步骤更低的延迟。作者的模型经过了移动CPU优化，但将SotA模型转换为移动友好的格式并不容易，也不是非常有意义，因为它们并不是为移动设备设计的。为了权衡，作者在Intel(R) Xeon(R) Gold 6138 CPU @ 2.00GHz的计算机服务器上比较所有模型的运行时间。

本文在Middlebury 2014数据集上对作者的方法与几种SotA立体方法进行了定量比较。作者的方法在速度上快于其他方法，并且实现了与SotA方法相当的性能。通过使用内部渲染的立体数据集进行训练，作者的性能进一步提高，并实现了最佳的绝对相对误差。作者新设计有效地从单目数据集呈现了立体数据集以训练模型。虽然作者的设计选择可能在Middlebury等基准测试上导致精度下降，但作者追求的是设计一个稳健的端到端深度系统。作者的量化8位立体模型是首次提出的，比较模型都使用32位权重和激活。尽管存在一些不利因素，但作者还是实现了与SotA方法相当的性能，并且运行速度更快。

本文描述了一项针对3D照片质量的调查。通过渲染深度系统的新视角视频进行调查，参与者对视频质量进行评分。研究结果表明，立体声得分的平均分数为3.44，单目深度得分的平均分数为2.96。结果显示，深度图质量有时与渲染的新视角视频的质量并不直接相关。作者强调了仅使用标准指标来比较方法是不足以评价立体声方法在实践中的表现的

8 结论

本文介绍了一种端到端的立体深度感知系统的设计，可以在智能手机上高效运行。该系统包括了一个在线矫正算法、单目和立体视差网络的协同设计，以及从单目数据集中提取大型立体数据集的新方法。作者还提出了一个8位量化的立体模型，与最先进的方法相比，在标准立体基准测试中具有竞争性能。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能手机

智能手机

+关注

关注
66

文章
18483

浏览量
180134
感知系统

感知系统

+关注

关注
1

文章
70

浏览量
15941
智能眼镜

智能眼镜

+关注

关注
8

文章
652

浏览量
72797

原文标题：CVPR2023 I 一种实用的智能眼镜深度感知系统

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

如何通过立体视觉构建小巧轻便的深度感知系统

有多种 3D 传感器方案来实现深度感知系统，包括立体视觉相机、激光雷达和TOF(飞行时间)相机。每个选择都有其优缺点，其中，嵌入式深度

发表于 08-23 16:45 •1317次阅读

如何通过<b class='flag-5'>立体</b>视觉构建小巧轻便的<b class='flag-5'>深度</b><b class='flag-5'>感知</b><b class='flag-5'>系统</b>

移动协作机器人的RGB-D感知的端到端处理方案

本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的端到端流程。该流程包括实例分割、特征匹配和点集配准。首先，利用RGB图像进行单

发表于 02-21 15:55 •682次阅读

移动协作机器人的RGB-D<b class='flag-5'>感知</b>的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>处理方案

求一种端到端的定制IC模拟与验证解决方案

求一种端到端的定制IC模拟与验证解决方案如何对存储器和混合信号设计进行仿真？

发表于 06-22 07:58

如何基于深度神经网络设计一个端到端的自动驾驶模型？

如何基于深度神经网络设计一个端到端的自动驾驶模型？如何设计一个基于增强学习的自动驾驶决策

发表于 04-29 16:44 •4890次阅读

如何基于<b class='flag-5'>深度</b>神经网络设计<b class='flag-5'>一</b>个<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的自动驾驶模型？

一种基于端到端基于语音的对话代理

这项新的专利技术旨在带来一种基于端到端基于语音的对话代理，该对话代理可以进行更自然，多轮回的对话，从而与用户的对话风格和面部表情保持一致。

发表于 09-09 14:14 •1631次阅读

基于深度神经网络的端到端图像压缩方法

人工设计的算法分别进行优化近年来，基于深度神经网络的端到端图像压缩方法在图像压缩中取得了丰硕的成果，相比传统方法，端

发表于 04-08 09:30 •16次下载

基于<b class='flag-5'>深度</b>神经网络的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>图像压缩方法

端到端的深度学习网络人体自动抠图算法

在基于立体视觉的人体建模系统中，背景像素的移除可以减少不必要的立体匹配计算，提高人体模型重建效率。为此，在给定大量具有前景 Alpha蒙板真值的人体图像作为训练数据的前提下，提出了一个

发表于 04-21 15:29 •10次下载

<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的<b class='flag-5'>深度</b>学习网络人体自动抠图算法

一种对红细胞和白细胞图像分类任务的主动学习端到端工作流程

细胞成像的分割和分类等技术是一个快速发展的领域研究。就像在其他机器学习领域一样，数据的标注是非常昂贵的，并且对于数据标注的质量要求也非常的高。针对这一问题，本篇文章介绍一种对红细胞和白

发表于 08-13 10:27 •1260次阅读

构建端到端的流程体系

所谓端到端流程的架构体系，就是一套有层次的端到端流程

发表于 06-01 15:09 •2027次阅读

构建<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的流程体系

系统设计的端到端原则

本文提出了一个旨在帮助指导设计分布式计算系统各模块功能的原则，称之为端到端原则。该原则表明，考虑到

发表于 06-15 17:28 •919次阅读

Sparse4D-v3：稀疏感知的性能优化及端到端拓展

极致的感知性能与极简的感知pipeline一直是牵引我们持续向前的目标。为了实现该目标，打造一个性能优异的端

发表于 01-23 10:20 •1382次阅读

实现自动驾驶，唯有端到端？

，去年行业主流方案还是轻高精地图城区智驾，今年大家的目标都瞄到了端到端（End-to-End, E2E）。端到

发表于 08-12 09:14 •722次阅读

端到端测试用例怎么写

编写端到端测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是一个详细的指南，介绍如何编写端

发表于 09-20 10:29 •444次阅读

Mobileye端到端自动驾驶解决方案的深度解析

强大的技术优势。 Mobileye的端到端解决方案概述 1.1 什么是端到端自动驾驶？

发表于 10-17 09:35 •352次阅读

端到端自动驾驶技术研究与分析

编者语：「智驾最前沿」微信公众号后台回复：C-0450，获取本文参考报告：《端到端自动驾驶行业研究报告》pdf下载方式。自动驾驶进入2024年，端

发表于 12-19 13:07 •117次阅读

搜索历史

一种端到端的立体深度感知系统的设计

评论

如何通过立体视觉构建小巧轻便的深度感知系统

移动协作机器人的RGB-D感知的端到端处理方案

求一种端到端的定制IC模拟与验证解决方案

如何基于深度神经网络设计一个端到端的自动驾驶模型？

一种基于端到端基于语音的对话代理

基于深度神经网络的端到端图像压缩方法

端到端的深度学习网络人体自动抠图算法

一种对红细胞和白细胞图像分类任务的主动学习端到端工作流程

构建端到端的流程体系

系统设计的端到端原则

Sparse4D-v3：稀疏感知的性能优化及端到端拓展

实现自动驾驶，唯有端到端？

端到端测试用例怎么写

Mobileye端到端自动驾驶解决方案的深度解析

端到端自动驾驶技术研究与分析