本文提出了一种即插即用的单目SLAM系统,能够在15FPS的帧率下生成全局一致的位姿和稠密几何图形。
01 本文核心内容
视觉SLAM乃是当今机器人技术与增强现实产品的基础性构建模块。通过精心设计的集成式硬件与软件堆栈,实现稳健且精准的视觉SLAM已成为可能。然而,SLAM尚未能成为一种即插即用的算法,因其需要硬件方面的专业知识以及校准操作。即便对于仅配备单个摄像头且无诸如IMU等额外传感器的最简设置而言,也不存在一种能够在野外可靠地同时提供准确姿态和一致稠密地图的SLAM解决方案。达成如此可靠的稠密SLAM系统将为空间智能研究开辟新的方向。
仅依靠2D图像来执行稠密SLAM时,需要对随时间变化的姿态、相机模型以及3D场景几何进行推理。为解决这种高维度的逆问题,从手工构建到数据驱动的各类先验知识已被提出。单视图先验,如单目深度和法向量,试图从单张图像预测几何结构,但其中存在歧义并且在不同视图间缺乏一致性。虽然诸如光流之类的多视图先验降低了歧义性,但要解耦姿态和几何结构却颇具挑战,因为像素运动取决于外部参数和相机模型。尽管这些潜在原因可能会随时间和不同观察者而变化,但3D场景在不同视图中保持不变。因此,从图像中求解姿态、相机模型和稠密几何所需的统一先验必须处于共同坐标系下的3D几何空间中。
近期,由DUSt3R及其后续的MASt3R开创的双视图3D重建先验,通过利用精心整理的3D数据集,在结构从运动(SfM)领域引发了范式转变。这些网络能直接从处于共同坐标系的两张图像中输出点图,使得上述子问题在联合框架中得以隐式求解。未来,这些先验将在具有显著失真的各类相机模型上接受训练。虽然3D先验可以纳入更多视图,但SfM和SLAM利用空间稀疏性并避免冗余以实现大规模一致性。双视图架构将双视图几何作为SfM的构建模块,这种模块化特性为高效决策和后端的稳健共识开启了大门。
在本项工作中,我们提出了首个以双视图3D重建先验作为跟踪、映射和重定位的统一基础的实时SLAM框架,如图1所示。尽管先前的工作已将这些先验应用于无序图像集合的离线SfM场景中,但SLAM是递增式接收数据并且必须维持实时运行。这就需要对低延迟匹配、精心的地图维护以及大规模优化的高效方法持有新的观点。此外,受SLAM中的滤波和优化技术启发,我们在前端对点图进行局部滤波,以在后端实现大规模全局优化。我们的系统对每张图像的相机模型除了所有光线都通过的唯一相机中心外不做任何假设。这造就了一个能够重建具有通用、随时间变化的相机模型场景的实时稠密单目SLAM系统。在给定校准的情况下,我们还在轨迹精度和稠密几何估计方面展现出了最先进的性能。
02 主要贡献
• 首个以双视图3D重建先验MASt3R作为基础的实时SLAM系统。
• 用于点图匹配、跟踪与局部融合、图构建与闭环以及二阶全局优化的高效技术。
• 一个能够处理通用、随时间变化的相机模型的最先进的稠密SLAM系统。
03 方法架构
在图3中概述了该方法的主要组成部分:MASt3R预测和点云匹配、跟踪和局部融合、闭环处理和全局优化。
新图像通过MASt3R预测点图,并利用我们高效的迭代投影点图匹配来寻找像素匹配,从而与当前关键帧进行跟踪。跟踪过程会估计当前位姿并执行局部点图融合。当新的关键帧添加到后端时,利用编码的MASt3R特征对检索数据库进行查询,从而选出闭环候选。随后,MASt3R对候选进行解码,若找到足够数量的匹配,则向后端图添加边。大规模二阶优化实现了位姿和密集几何的全局一致性。
04 结果
4.1.相机位姿估计
TUMRGB-D:在TUM数据集上,如表1所示,当利用校准信息时,我们展现出了在轨迹误差方面的最先进水平。许多此前表现最佳的算法,例如DROID-SLAM、DPV-SLAM以及GO-SLAM,都是基于DROID-SLAM所提出的基础匹配和端到端系统构建的。相较而言,我们提出了一个独特的系统,采用了现成的双视图几何先验,并表明其能够在实时运行的情况下超越其他所有系统。此外,我们未校准的系统显著优于一个基准,我们将其标记为DROID-SLAM*,该基准在序列的首张图像上使用GeoCalib来校准内参,然后供DROID-SLAM使用。我们在无需在整个序列中假定固定相机模型的情况下实现了这一成果,并展示了在未校准的稠密SLAM中3D先验相对于解决子问题的先验的价值。我们未校准的SLAM结果也可与诸如DPV-SLAM等已知校准的其他近期学习技术的结果相媲美。
7-Scenes:我们依照NICER-SLAM的方式使用相同的序列进行评估,如表2所示。我们校准后的系统在性能上优于NICER-SLAM和DROIDSLAM。此外,我们使用单个3D重建先验的实时未校准系统在性能上优于NICER-SLAM,后者在深度、法线和光流网络中使用多个先验且离线运行。
ETH3D-SLAM:由于其难度较大,ETH3D-SLAM仅针对RGB-D方法进行了评估。由于官方私有评估中的ATE阈值对于单目方法而言过于严格,我们在训练序列上对几款最先进的单目系统进行了评估,并生成了ATE曲线。该数据集包含具有快速相机运动的序列,因此对于所有方法,我们均未对帧进行下采样。虽然其他方法可能具有更精确的轨迹,但我们的方法在鲁棒性方面具有更出色的表现,在ATE和曲线下面积(AUC)方面均取得了最佳结果。
EuRoC:我们在表3中报告了所有11个EuRoC序列的平均ATE。对于未校准的情况,我们发现由于MASt3R尚未针对此类相机模型进行训练,所以畸变过于显著,因此我们对图像进行了去畸变处理,但未向其余管道提供校准信息。总体而言,我们的系统在性能上不如DROID-SLAM,但其明确在训练中加入了10%的灰度图像。不过,0.041米的ATE仍然非常准确,从中的比较来看,所有优于DROID-SLAM的方法都建立在DROID-SLAM的基础之上,而我们则提出了一种运用3D重建先验的新颖方法。
4.2.稠密几何评估
我们在EuRoCVicon房间序列和7-Scenesseq-01上,针对我们的几何结果与DROID-SLAM和Spann3R进行评估。对于EuRoC,通过将估计轨迹与Vicon轨迹对齐,从而获取参考点云和估计点云之间的对齐。需要注意的是,这种设置对DROID-SLAM有利,因其轨迹误差更低。对于7-Scenes,我们利用数据集提供的位姿对深度图像进行后投影以创建参考点云。由于未提供RGB和深度传感器之间的外部校准,随后使用ICP将其与估计点云对齐。
我们报告了用于评估准确性(定义为每个估计点与其最近参考点之间的距离)和完整性(定义为每个参考点与其最近估计点之间的距离)的均方根误差(RMSE)。这两个指标均在最大距离阈值为0.5米的情况下计算,并在所有序列上取平均值。我们还报告了倒角距离,即这两个指标的平均值。
表3总结了在7-Scenes和EuRoC上的几何评估结果。对于7-Scenes,我们无论是否进行校准的方法以及Spann3R相较于DROID-SLAM都实现了更精确的重建,突显了3D先验的优势。我们在两种不同设置下运行Spann3R。其一,每20张图像获取一个关键帧;其二,每2张图像获取一个关键帧。这两种设置的差异显示出无测试时间优化方法在泛化方面所面临的挑战。我们未校准的方法在准确性和倒角距离上表现最佳。这可归因于7-Scenes提供的内在校准是默认的工厂校准。
对于EuRoC,Spann3R表现不佳,因为这些序列并非以物体为中心,所以被排除在外。如表3所总结,尽管在ATE方面DROID-SLAM优于我们的方法,但我们有/无校准的方法在几何方面表现更优。DROID-SLAM由于估计出大量围绕参考点云的噪声点,从而获得了更高的完整性,但我们的方法在准确性上显著更优。有趣的是,我们未校准的系统ATE明显更大,但在倒角距离上仍优于DROID-SLAM。
4.3.定性结果
图中展示了具有挑战性的Burghers序列的重建,该序列在镜面图形上几乎没有可匹配的特征。我们在图中展示了TUM的姿态估计和密集重建的示例,在图中展示了EuRoC的示例。此外,我们在图7中展示了连续关键帧之间存在极端缩放变化的示例。
05 总结
我们提出了一种基于MASt3R的实时稠密SLAM系统,该系统能够处理野外视频并取得了最先进的性能。近期SLAM领域的诸多进展都遵循了DROID-SLAM的贡献,其训练了一个端到端的框架,通过流更新来求解姿态和几何问题。我们采用了一种不同的方法,围绕现成的几何先验构建了一个系统,首次实现了可与之媲美的姿态估计,同时还提供了一致的稠密几何结构。
-
机器人
+关注
关注
211文章
28418浏览量
207085 -
SLAM
+关注
关注
23文章
424浏览量
31830
原文标题:即插即用!基于3D重建先验,实时、鲁棒、全局一致的稠密SLAM
文章出处:【微信号:gh_c87a2bc99401,微信公众号:INDEMIND】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论