视觉SLAM深度解读-电子发烧友网

近年来，SLAM技术取得了惊人的发展，领先一步的激光SLAM已成熟的应用于各大场景中，视觉SLAM虽在落地应用上不及激光SLAM，但也是目前研究的一大热点，今天我们就来详细聊聊视觉SLAM的那些事儿。

视觉SLAM是什么？

视觉SLAM主要是基于相机来完成环境的感知工作，相对而言，相机成本较低，容易放到商品硬件上，且图像信息丰富，因此视觉SLAM也备受关注。

目前，视觉SLAM可分为单目、双目（多目）、RGBD这三类，另还有鱼眼、全景等特殊相机，但目前在研究和产品中还属于少数，此外，结合惯性测量器件（Inertial Measurement Unit，IMU）的视觉SLAM也是现在研究热点之一。从实现难度上来说，大致将这三类方法排序为：单目视觉>双目视觉>RGBD。

单目相机SLAM简称MonoSLAM，仅用一支摄像头就能完成SLAM。最大的优点是传感器简单且成本低廉，但同时也有个大问题，就是不能确切的得到深度。

一方面是由于绝对深度未知，单目SLAM不能得到机器人运动轨迹及地图的真实大小，如果把轨迹和房间同时放大两倍，单目看到的像是一样的，因此，单目SLAM只能估计一个相对深度。另一方面，单目相机无法依靠一张图像获得图像中物体离自己的相对距离。为了估计这个相对深度，单目SLAM要靠运动中的三角测量，来求解相机运动并估计像素的空间位置。即是说，它的轨迹和地图，只有在相机运动之后才能收敛，如果相机不进行运动时，就无法得知像素的位置。同时，相机运动还不能是纯粹的旋转，这就给单目SLAM的应用带来了一些麻烦。

而双目相机与单目不同的是，立体视觉既可以在运动时估计深度，亦可在静止时估计，消除了单目视觉的许多麻烦。不过，双目或多目相机配置与标定均较为复杂，其深度量程也随双目的基线与分辨率限制。通过双目图像计算像素距离，是一件非常消耗计算量的事情，现在多用FPGA来完成。

RGBD相机是2010年左右开始兴起的一种相机，它最大的特点是可以通过红外结构光或TOF原理，直接测出图像中各像素离相机的距离。因此，它比传统相机能够提供更丰富的信息，也不必像单目或双目那样费时费力地计算深度。

视觉SLAM框架解读

1.传感器数据

在视觉SLAM中主要为相机图像信息的读取和预处理。如果在机器人中，还可能有码盘，惯性传感器等信息的读取和同步。

2.视觉里程计

视觉里程计的主要任务是估算相邻图像间相机运动以及局部地图的样子，最简单的是两张图像之间的运动关系。计算机是如何通过图像确定相机的运动的。在图像上，我们只能看到一个个的像素，知道他们是某些空间点在相机的成像平面投影的结果。所以必须先了解相机跟空间点的几何关系。

Vo（又称为前端）能够通过相邻帧间的图像估计相机运动，并恢复场景的空间结构，称它为里程计。被称为里程计是因为它只计算相邻时刻的运动，而和再往前的过去信息没有关联。相邻时刻运动串联起来，就构成了机器人的运动轨迹，从而解决了定位问题。另一方面，根据每一时刻的相机位置，计算出各像素对应的空间点的位置，就得到了地图。

3.后端优化

后端优化主要是处理slam过程中噪声的问题。任何传感器都有噪声，所以除了要处理“如何从图像中估计出相机运动”，还要关心这个估计带有多大的噪声。

前端给后端提供待优化的数据，以及这些数据的初始值，而后端负责整体的优化过程，它往往面对的只有数据，不必关系这些数据来自哪里。在视觉slam中，前端和计算接视觉研究领域更为相关，比如图像的特征提取与匹配等，后端则主要是滤波和非线性优化算法。

4.回环检测

回环检测也可以称为闭环检测，是指机器人识别曾到达场景的能力。如果检测成功，可以显著地减小累积误差。回环检测实质上是一种检测观测数据相似性的算法。对于视觉SLAM，多数系统采用目前较为成熟的词袋模型（Bag-of-Words, BoW）。词袋模型把图像中的视觉特征（SIFT, SURF等）聚类，然后建立词典，进而寻找每个图中含有哪些“单词”（word）。也有研究者使用传统模式识别的方法，把回环检测建构成一个分类问题，训练分类器进行分类。

5.建图

建图主要是根据估计的轨迹建立与任务要求对应的地图，在机器人学中，地图的表示主要有栅格地图、直接表征法、拓扑地图以及特征点地图这4种。而特征点地图是用有关的几何特征（如点、直线、面）表示环境，常见于视觉SLAM技术中。这种地图一般通过如GPS、UWB以及摄像头配合稀疏方式的vSLAM算法产生，优点是相对数据存储量和运算量比较小，多见于最早的SLAM算法中。

视觉SLAM工作原理

大多数视觉SLAM系统的工作方式是通过连续的相机帧，跟踪设置关键点，以三角算法定位其3D位置，同时使用此信息来逼近推测相机自己的姿态。简单来说，这些系统的目标是绘制与自身位置相关的环境地图。这个地图可以用于机器人系统在该环境中导航作用。与其他形式的SLAM技术不同，只需一个3D视觉摄像头，就可以做到这一点。

通过跟踪摄像头视频帧中足够数量的关键点，可以快速了解传感器的方向和周围物理环境的结构。所有视觉SLAM系统都在不断的工作，以使重新投影误差(Reprojection Error)或投影点与实际点之间的差异最小化，通常是通过一种称为Bundle Adjustment(BA)的算法解决方案。vSLAM系统需要实时操作，这涉及到大量的运算，因此位置数据和映射数据经常分别进行Bundle Adjustment，但同时进行，便于在最终合并之前加快处理速度。

视觉SLAM与激光SLAM有什么区别？

在业内，视觉SLAM与激光SLAM谁更胜一筹，谁将成为未来主流趋势这一问题，成为大家关注的热点，不同的人也有不同的看法及见解，以下将从成本、应用场景、地图精度、易用性几个方面来进行详细阐述。

1.成本

从成本上来说，激光雷达普遍价格较高，但目前国内也有低成本的激光雷达解决方案，而VSLAM主要是通过摄像头来采集数据信息，跟激光雷达一对比，摄像头的成本显然要低很多。但激光雷达能更高精度的测出障碍点的角度和距离，方便定位导航。

2.应用场景

从应用场景来说，VSLAM的应用场景要丰富很多。VSLAM在室内外环境下均能开展工作，但是对光的依赖程度高，在暗处或者一些无纹理区域是无法进行工作的。而激光SLAM目前主要被应用在室内，用来进行地图构建和导航工作。

3.地图精度

激光SLAM在构建地图的时候，精度较高，思岚科技的RPLIDAR系列构建的地图精度可达到2cm左右；VSLAM，比如常见的，大家也用的非常多的深度摄像机Kinect，（测距范围在3-12m之间），地图构建精度约3cm；所以激光SLAM构建的地图精度一般来说比VSLAM高，且能直接用于定位导航。

视觉SLAM的地图建立

4.易用性

激光SLAM和基于深度相机的视觉SLAM均是通过直接获取环境中的点云数据，根据生成的点云数据，测算哪里有障碍物以及障碍物的距离。但是基于单目、双目、鱼眼摄像机的视觉SLAM方案，则不能直接获得环境中的点云，而是形成灰色或彩色图像，需要通过不断移动自身的位置，通过提取、匹配特征点，利用三角测距的方法测算出障碍物的距离。

总体来说，激光SLAM相对更为成熟，也是目前最为可靠的定位导航方案，而视觉SLAM仍是今后研究的一个主流方向，但未来，两者融合是必然趋势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视觉SLAM

视觉SLAM

+关注

关注
0

文章
9

浏览量
1383

一种基于MASt3R的实时稠密SLAM系统

本文提出了一种即插即用的单目SLAM系统，能够在15FPS的帧率下生成全局一致的位姿和稠密几何图形。 01 本文核心内容视觉SLAM乃是当今机器人技术与增强现实产品的基础性构建模块。通过

发表于 12-27 15:25 •404次阅读

利用VLM和MLLMs实现SLAM语义增强

语义同步定位与建图（SLAM）系统在对邻近的语义相似物体进行建图时面临困境，特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强（SEO-SLAM）的新型SLAM系统，借

发表于 12-05 10:00 •259次阅读

利用VLM和MLLMs实现<b class='flag-5'>SLAM</b>语义增强

探索 SLAM 技术赋能的 MR 混合现实应用场景 #可视化 #MR #混合现实 #SLAM

SLAM

阿梨是苹果

发布于 :2024年12月02日 14:18:29

4G模组加解密艺术：通用函数的深度解读

今天是对加解密通用函数的深度解读，我将详细讲解，建议收藏，不可错过。

发表于 11-12 09:58 •299次阅读

4G模组加解密艺术：通用函数的<b class='flag-5'>深度</b><b class='flag-5'>解读</b>

MG-SLAM：融合结构化线特征优化高斯SLAM算法

同步定位与地图构建 (SLAM) 是计算机视觉中的一个基本问题，旨在在同时跟踪相机姿势的同时对环境进行地图构建。基于学习的密集 SLAM 方法，尤其是神经辐射场 (NeRF) 方法，在捕获密集光度

发表于 11-11 16:17 •412次阅读

MG-<b class='flag-5'>SLAM</b>：融合结构化线特征优化高斯<b class='flag-5'>SLAM</b>算法

AI干货补给站 | 深度学习与机器视觉的融合探索

，帮助从业者积累行业知识，推动工业视觉应用的快速落地。本期亮点预告本期将以“深度学习与机器视觉的融合探索”为主题，通过讲解深度学习定义、传统机器视觉

发表于 10-29 08:04 •271次阅读

从算法角度看 SLAM（第 2 部分）

，分别是基于滤波器的 SLAM、基于图形的 SLAM 和基于深度学习的 SLAM。基于滤波器的 SLAM 将

发表于 10-02 16:39 •391次阅读

一种适用于动态环境的实时视觉SLAM系统

既能保证效率和精度，又无需GPU，行业第一个达到此目标的视觉动态SLAM系统。

发表于 09-30 14:35 •605次阅读

深度解读 VCXO VG7050CDN：可变晶体振荡器的卓越之选

深度解读 VCXO VG7050CDN：可变晶体振荡器的卓越之选

发表于 07-24 10:58 •396次阅读

深度学习在工业机器视觉检测中的应用

随着深度学习技术的快速发展，其在工业机器视觉检测中的应用日益广泛，并展现出巨大的潜力。工业机器视觉检测是工业自动化领域的重要组成部分，通过图像处理和计算机视觉技术，实现对产品表面缺陷、

发表于 07-08 10:40 •1184次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，旨在让计算机能够像人类一样理解和解析图像和视频中的信息。而

发表于 07-01 11:38 •951次阅读

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等领域。近年来，研究人员开始在视觉SLAM算法中引入深

发表于 04-23 17:18 •1374次阅读

工程实践中VINS与ORB-SLAM的优劣分析

ORB-SLAM是一种基于特征的单目视觉SLAM系统，广泛用于实时三维地图构建和机器人定位。该系统使用ORB特征进行高效的视觉识别和地图重建，支持关键帧技术和回环检测来优化地图的准确性

发表于 04-08 10:17 •3088次阅读

什么是SLAM？SLAM算法涉及的4要素

SLAM技术可以应用在无人驾驶汽车、无人机、机器人、虚拟现实等领域中，为这些领域的发展提供了支持。SLAM技术的发展已经逐渐从单纯的定位和地图构建转向了基于场景理解的功能。

发表于 04-04 11:50 •2705次阅读

从基本原理到应用的SLAM技术深度解析

LSD-SLAM 即 Large-Scale Direct SLAM，兼容单目相机和双目相机。LSD-SLAM是一种基于光流跟踪的直接法SLAM，但是实现了半稠密建图，建图规模大，可以

发表于 02-26 09:41 •9601次阅读