一种基于MASt3R的实时稠密SLAM系统-电子发烧友网

本文提出了一种即插即用的单目SLAM系统，能够在15FPS的帧率下生成全局一致的位姿和稠密几何图形。

01 本文核心内容

视觉SLAM乃是当今机器人技术与增强现实产品的基础性构建模块。通过精心设计的集成式硬件与软件堆栈，实现稳健且精准的视觉SLAM已成为可能。然而，SLAM尚未能成为一种即插即用的算法，因其需要硬件方面的专业知识以及校准操作。即便对于仅配备单个摄像头且无诸如IMU等额外传感器的最简设置而言，也不存在一种能够在野外可靠地同时提供准确姿态和一致稠密地图的SLAM解决方案。达成如此可靠的稠密SLAM系统将为空间智能研究开辟新的方向。

仅依靠2D图像来执行稠密SLAM时，需要对随时间变化的姿态、相机模型以及3D场景几何进行推理。为解决这种高维度的逆问题，从手工构建到数据驱动的各类先验知识已被提出。单视图先验，如单目深度和法向量，试图从单张图像预测几何结构，但其中存在歧义并且在不同视图间缺乏一致性。虽然诸如光流之类的多视图先验降低了歧义性，但要解耦姿态和几何结构却颇具挑战，因为像素运动取决于外部参数和相机模型。尽管这些潜在原因可能会随时间和不同观察者而变化，但3D场景在不同视图中保持不变。因此，从图像中求解姿态、相机模型和稠密几何所需的统一先验必须处于共同坐标系下的3D几何空间中。

近期，由DUSt3R及其后续的MASt3R开创的双视图3D重建先验，通过利用精心整理的3D数据集，在结构从运动（SfM）领域引发了范式转变。这些网络能直接从处于共同坐标系的两张图像中输出点图，使得上述子问题在联合框架中得以隐式求解。未来，这些先验将在具有显著失真的各类相机模型上接受训练。虽然3D先验可以纳入更多视图，但SfM和SLAM利用空间稀疏性并避免冗余以实现大规模一致性。双视图架构将双视图几何作为SfM的构建模块，这种模块化特性为高效决策和后端的稳健共识开启了大门。

在本项工作中，我们提出了首个以双视图3D重建先验作为跟踪、映射和重定位的统一基础的实时SLAM框架，如图1所示。尽管先前的工作已将这些先验应用于无序图像集合的离线SfM场景中，但SLAM是递增式接收数据并且必须维持实时运行。这就需要对低延迟匹配、精心的地图维护以及大规模优化的高效方法持有新的观点。此外，受SLAM中的滤波和优化技术启发，我们在前端对点图进行局部滤波，以在后端实现大规模全局优化。我们的系统对每张图像的相机模型除了所有光线都通过的唯一相机中心外不做任何假设。这造就了一个能够重建具有通用、随时间变化的相机模型场景的实时稠密单目SLAM系统。在给定校准的情况下，我们还在轨迹精度和稠密几何估计方面展现出了最先进的性能。

02 主要贡献

• 首个以双视图3D重建先验MASt3R作为基础的实时SLAM系统。

• 用于点图匹配、跟踪与局部融合、图构建与闭环以及二阶全局优化的高效技术。

• 一个能够处理通用、随时间变化的相机模型的最先进的稠密SLAM系统。

03 方法架构

在图3中概述了该方法的主要组成部分：MASt3R预测和点云匹配、跟踪和局部融合、闭环处理和全局优化。

新图像通过MASt3R预测点图，并利用我们高效的迭代投影点图匹配来寻找像素匹配，从而与当前关键帧进行跟踪。跟踪过程会估计当前位姿并执行局部点图融合。当新的关键帧添加到后端时，利用编码的MASt3R特征对检索数据库进行查询，从而选出闭环候选。随后，MASt3R对候选进行解码，若找到足够数量的匹配，则向后端图添加边。大规模二阶优化实现了位姿和密集几何的全局一致性。

04 结果

4.1.相机位姿估计

TUMRGB-D：在TUM数据集上，如表1所示，当利用校准信息时，我们展现出了在轨迹误差方面的最先进水平。许多此前表现最佳的算法，例如DROID-SLAM、DPV-SLAM以及GO-SLAM，都是基于DROID-SLAM所提出的基础匹配和端到端系统构建的。相较而言，我们提出了一个独特的系统，采用了现成的双视图几何先验，并表明其能够在实时运行的情况下超越其他所有系统。此外，我们未校准的系统显著优于一个基准，我们将其标记为DROID-SLAM*，该基准在序列的首张图像上使用GeoCalib来校准内参，然后供DROID-SLAM使用。我们在无需在整个序列中假定固定相机模型的情况下实现了这一成果，并展示了在未校准的稠密SLAM中3D先验相对于解决子问题的先验的价值。我们未校准的SLAM结果也可与诸如DPV-SLAM等已知校准的其他近期学习技术的结果相媲美。

7-Scenes：我们依照NICER-SLAM的方式使用相同的序列进行评估，如表2所示。我们校准后的系统在性能上优于NICER-SLAM和DROIDSLAM。此外，我们使用单个3D重建先验的实时未校准系统在性能上优于NICER-SLAM，后者在深度、法线和光流网络中使用多个先验且离线运行。

ETH3D-SLAM：由于其难度较大，ETH3D-SLAM仅针对RGB-D方法进行了评估。由于官方私有评估中的ATE阈值对于单目方法而言过于严格，我们在训练序列上对几款最先进的单目系统进行了评估，并生成了ATE曲线。该数据集包含具有快速相机运动的序列，因此对于所有方法，我们均未对帧进行下采样。虽然其他方法可能具有更精确的轨迹，但我们的方法在鲁棒性方面具有更出色的表现，在ATE和曲线下面积（AUC）方面均取得了最佳结果。

EuRoC：我们在表3中报告了所有11个EuRoC序列的平均ATE。对于未校准的情况，我们发现由于MASt3R尚未针对此类相机模型进行训练，所以畸变过于显著，因此我们对图像进行了去畸变处理，但未向其余管道提供校准信息。总体而言，我们的系统在性能上不如DROID-SLAM，但其明确在训练中加入了10%的灰度图像。不过，0.041米的ATE仍然非常准确，从中的比较来看，所有优于DROID-SLAM的方法都建立在DROID-SLAM的基础之上，而我们则提出了一种运用3D重建先验的新颖方法。

4.2.稠密几何评估

我们在EuRoCVicon房间序列和7-Scenesseq-01上，针对我们的几何结果与DROID-SLAM和Spann3R进行评估。对于EuRoC，通过将估计轨迹与Vicon轨迹对齐，从而获取参考点云和估计点云之间的对齐。需要注意的是，这种设置对DROID-SLAM有利，因其轨迹误差更低。对于7-Scenes，我们利用数据集提供的位姿对深度图像进行后投影以创建参考点云。由于未提供RGB和深度传感器之间的外部校准，随后使用ICP将其与估计点云对齐。

我们报告了用于评估准确性（定义为每个估计点与其最近参考点之间的距离）和完整性（定义为每个参考点与其最近估计点之间的距离）的均方根误差（RMSE）。这两个指标均在最大距离阈值为0.5米的情况下计算，并在所有序列上取平均值。我们还报告了倒角距离，即这两个指标的平均值。

表3总结了在7-Scenes和EuRoC上的几何评估结果。对于7-Scenes，我们无论是否进行校准的方法以及Spann3R相较于DROID-SLAM都实现了更精确的重建，突显了3D先验的优势。我们在两种不同设置下运行Spann3R。其一，每20张图像获取一个关键帧；其二，每2张图像获取一个关键帧。这两种设置的差异显示出无测试时间优化方法在泛化方面所面临的挑战。我们未校准的方法在准确性和倒角距离上表现最佳。这可归因于7-Scenes提供的内在校准是默认的工厂校准。

对于EuRoC，Spann3R表现不佳，因为这些序列并非以物体为中心，所以被排除在外。如表3所总结，尽管在ATE方面DROID-SLAM优于我们的方法，但我们有/无校准的方法在几何方面表现更优。DROID-SLAM由于估计出大量围绕参考点云的噪声点，从而获得了更高的完整性，但我们的方法在准确性上显著更优。有趣的是，我们未校准的系统ATE明显更大，但在倒角距离上仍优于DROID-SLAM。

4.3.定性结果

图中展示了具有挑战性的Burghers序列的重建，该序列在镜面图形上几乎没有可匹配的特征。我们在图中展示了TUM的姿态估计和密集重建的示例，在图中展示了EuRoC的示例。此外，我们在图7中展示了连续关键帧之间存在极端缩放变化的示例。

05 总结

我们提出了一种基于MASt3R的实时稠密SLAM系统，该系统能够处理野外视频并取得了最先进的性能。近期SLAM领域的诸多进展都遵循了DROID-SLAM的贡献，其训练了一个端到端的框架，通过流更新来求解姿态和几何问题。我们采用了一种不同的方法，围绕现成的几何先验构建了一个系统，首次实现了可与之媲美的姿态估计，同时还提供了一致的稠密几何结构。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28778

浏览量
209028
SLAM

SLAM

+关注

关注
23

文章
427

浏览量
31948

原文标题：即插即用！基于3D重建先验，实时、鲁棒、全局一致的稠密SLAM

文章出处：【微信号：gh_c87a2bc99401，微信公众号：INDEMIND】欢迎添加关注！文章转载请注明出处。

从基本原理到应用的SLAM技术深度解析

LSD-SLAM 即 Large-Scale Direct SLAM，兼容单目相机和双目相机。LSD-SLAM是一种基于光流跟踪的直接法SLAM

发表于 02-26 09:41 •9765次阅读

SLAM技术的应用及发展现状

控制。当下国内有一些AGV企业都已开始将SLAM技术应用到AGV上，借此实现真正的自然导航。 SLAM的两大类别用在SLAM上的传感器主要可分为两大类，

发表于 12-06 10:25

求大神分享一种基于裸机编程的实时系统

求大神分享一种基于裸机编程的实时系统

发表于 04-27 06:08

请问怎样去设计一种天线实时测量系统？

为什么要设计一种天线实时测量系统？怎样去设计一种天线实时测量系统？

发表于 05-08 06:50

如何去实现一种MP3实时解码系统的设计？

一种基于多任务嵌入式应用的MP3实时解码系统设计

发表于 06-02 06:32

如何去实现一种实时图像采集系统的设计？

视频解码芯片SAA7114H的性能特点是什么？复杂可编程逻辑器件XC95216的性能特点是什么？一种基于视频解码芯片SAA7114H与CPLD的实时图像采集系统设计

发表于 06-07 07:15

请问怎样去设计一种实时视频采集系统？

本文设计了一种基于DSP+FPGA的实时视频采集系统。

发表于 06-07 06:39

HOOFR-SLAM的系统框架及其特征提取

Intelligent Vehicles Applications1. 介绍2. HOOFR-SLAM2.1 系统框架2.2 HOOFR特征提取2.3 映射线程2.3.1 特征匹配1. 介绍提出一种HOOFR-...

发表于 12-21 06:35

一种实时数据管理系统的开发

一种实时数据管理系统的开发，有兴趣的同学可以下载学习

发表于 05-04 15:11 •10次下载

VIL-SLAM系统可实现获得更好的回环约束

来实现这一目标。该系统实时生成环闭合校正的6自由度激光雷达姿态和接近实时的1cm体素稠密点云。与最先进的激光雷达方法相比，VIL-

发表于 02-18 17:59 •2376次阅读

一种基于直接法的动态稠密SLAM方案

基于特征点法的视觉SLAM系统很难应用于稠密建图，且容易丢失动态对象。而基于直接法的SLAM系统会跟踪图像帧之间的所有像素，因此在动态

发表于 03-13 09:38 •1377次阅读

一种智慧型水质实时监测系统设计

电子发烧友网站提供《一种智慧型水质实时监测系统设计.pdf》资料免费下载

发表于 10-19 11:33 •0次下载

什么是SLAM？基于3D高斯辐射场的SLAM优势分析

基于NeRF的SLAM算法采用全局地图和图像重建损失函数，通过可微分渲染捕获稠密的光度信息，具有高保真度。

发表于 04-01 12:44 •886次阅读

一种适用于动态环境的实时视觉SLAM系统

既能保证效率和精度，又无需GPU，行业第一个达到此目标的视觉动态SLAM系统。

发表于 09-30 14:35 •661次阅读

一种全新开源SfM框架MASt3R

运动恢复结构（SfM）是计算机视觉领域一个长期存在的问题，旨在根据每个相机拍摄的图像来估计场景的3D几何结构以及观测该场景的相机的参数。由于它方便地同时为相机和地图提供信息，因此构成了许多实用计

发表于 10-28 14:13 •915次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一种基于MASt3R的实时稠密SLAM系统

评论

从基本原理到应用的SLAM技术深度解析

SLAM技术的应用及发展现状

求大神分享一种基于裸机编程的实时系统

请问怎样去设计一种天线实时测量系统？

如何去实现一种MP3实时解码系统的设计？

如何去实现一种实时图像采集系统的设计？

请问怎样去设计一种实时视频采集系统？

HOOFR-SLAM的系统框架及其特征提取

一种实时数据管理系统的开发

VIL-SLAM系统可实现获得更好的回环约束

一种基于直接法的动态稠密SLAM方案

一种智慧型水质实时监测系统设计

什么是SLAM？基于3D高斯辐射场的SLAM优势分析

一种适用于动态环境的实时视觉SLAM系统

一种全新开源SfM框架MASt3R