基于多模态语义SLAM框架-电子发烧友网

摘要

大家好，今天为大家带来的文章是 Multi-modal Semantic SLAM for Complex Dynamic Environments 同时定位和建图（SLAM）是许多现实世界机器人应用中最重要的技术之一。静态环境的假设在大多数 SLAM 算法中很常见，但是对于大多数应用程序来说并非如此。最近关于语义 SLAM 的工作旨在通过执行基于图像的分割来理解环境中的对象并从场景上下文中区分动态信息。然而，分割结果往往不完善或不完整，这会降低映射的质量和定位的准确性。在本文中，我们提出了一个强大的多模态语义框架来解决复杂和高度动态环境中的 SLAM 问题。我们建议学习更强大的对象特征表示，并将三思而后行的机制部署到主干网络，从而为我们的基线实例分割模型带来更好的识别结果。此外，将纯几何聚类和视觉语义信息相结合，以减少由于小尺度物体、遮挡和运动模糊造成的分割误差的影响。已经进行了彻底的实验来评估所提出方法的性能。结果表明，我们的方法可以在识别缺陷和运动模糊下精确识别动态对象。此外，所提出的 SLAM 框架能够以超过 10 Hz 的处理速率有效地构建静态密集地图，这可以在许多实际应用中实现。训练数据和建议的方法都是开源的。

主要工作与贡献

1. 本文提出了一个鲁棒且快速的多模态语义 SLAM 框架，旨在解决复杂和动态环境中的 SLAM 问题。具体来说，将仅几何聚类和视觉语义信息相结合，以减少由于小尺度对象、遮挡和运动模糊导致的分割误差的影响。 2. 本文提出学习更强大的对象特征表示，并将三思机制部署到主干网络，从而为基线实例分割模型带来更好的识别结果。 3. 对所提出的方法进行了全面的评估。结果表明，本文的方法能够提供可靠的定位和语义密集的地图

算法流程

图 2 是框架的概述。它主要由四个模块组成，分别是实例分割模块、多模态融合模块、定位模块和全局优化与映射模块。 1.实例分割和语义学习使用2D实例分割网络，一张图像的实例分割结果： C代表类别，M是物体的掩码信息，n代表当前图像中存在物体数量。图像在空间上被分成 N × N 个网格单元。如果一个对象的中心落入一个网格单元，该网格单元负责分别预测类别分支Bc和掩码分支P m 中对象的语义类别Cij和语义掩码Mij： λ 是类的数量。φ 是网格单元的总数。为了满足实时性的要求：采用SOLOv2 的轻量级版本，但精度较低，可实现实时实例分割。为了提高分割精度：实施了多种方法来在骨干网络中构建更有效和更健壮的特征表示鉴别器。输出是每个动态对象的像素级实例掩码，以及它们对应的边界框和类类型。为了更好地将动态信息集成到 SLAM 算法中，输出二进制掩码被转换为包含场景中所有像素级实例掩码的单个图像。蒙版落在其上的像素被认为是“动态状态”，否则被认为是“静态”。然后将二进制掩码应用于语义融合模块以生成 3D 动态掩码。 2.多模态融合 1.移动模糊补偿： 目前实例分割的性能已经是不错的，但是移动的物体会出现物体识别不完整导致物体的边界不明确最终影响定位精度。因此，本文首先实现形态膨胀，将 2D 像素级掩模图像与结构元素进行卷积，以逐渐扩展动态对象的区域边界。形态膨胀结果标志着动态对象周围的模糊边界。我们将动态对象及其边界作为动态信息，将在多模态融合部分进一步细化。 2.几何聚类和语义融合： 通过欧几里得空间的连通性分析进行补偿也在本文的工作中实现。实例分割网络在大多数实际情况下都具有出色的识别能力，但是由于区域之间的模糊像素，运动模糊限制了分割性能，导致了不希望的分割错误。因此，将点云聚类结果和分割结果结合起来，以更好地细化动态对象。特别是，对几何信息进行连通性分析，并与基于视觉的分割结果合并。为了提高工作效率，首先将 3D 点云缩小以减少数据规模，并将其用作点云聚类的输入。然后将实例分割结果投影到点云坐标上，对每个点进行标注。当大多数点（90％）是动态标记点时，点云簇将被视为动态簇。当静态点靠近动态点簇时，它会被重新标记为动态标签。并且当附近没有动态点聚类时，动态点将被重新标记。 3.定位与位姿估计 1.特征提取： 多模态动态分割后，点云分为动态点云PD和静态点云PS。基于原先之前的工作，静态点云随后用于定位和建图模块。与现有的 SLAM 方法（如 LOAM ）相比，原先之前的工作中提出的框架能够支持 30 Hz 的实时性能，速度要快几倍。与 ORB-SLAM2和 VINS-MONO 等视觉 SLAM 相比，它还可以抵抗光照变化。对于每个静态点 pk ∈ PS ，可以在欧几里得空间中通过半径搜索来搜索其附近的静态点集 Sk。让 |S|是集合 S 的基数，因此局部平滑度定义为：边缘特征由 σk 大的点定义，平面特征由 σk 小的点定义。 2.数据关联： 通过最小化点到边缘和点到平面的距离来计算最终的机器人位姿。对于边缘特征点 pE ∈ PE ，可以通过 p^E = T·pE 将其转换为局部地图坐标，其中 T ∈ SE(3) 是当前位姿。从局部边缘特征图中搜索 2 个最近的边缘特征 p 1 E 和 p 2 E，点到边缘残差定义：类似地，给定一个平面特征点 pL ∈ PL 及其变换点 p^L = T·pL，我们可以从局部平面图中搜索 3 个最近点。点到平面残差定义为： 3.位姿估计： 通过最小化点到平面和点到边缘残差的总和来计算最终的机器人位姿： 4.特征地图更新和关键帧选择： 一旦位姿优化解决，特征点将被更新到局部地图和平面地图当中。这些点将被用于一下帧的数据关联。当平移或者旋转的值大于阈值时候，该帧将被选作关键帧。 4.全局地图构建 全局语义地图由静态地图和动态地图构成。视觉信息用于构建测色密集静态地图。视觉信息能够反投影3D点到图像平面。为防止内存溢出的问题采用3d is here: Point cloud library (pcl)。

实验结果

1.数据获取 在自动驾驶、智能仓储物流等诸多场景中，人往往被视为动态对象。因此，本文从 COCO 数据集中选择了 5,000 张人体图像。在实验中，所提出的方法在仓库环境中进行评估，如图 4 所示。除了将人视为动态对象之外，先进的工厂还需要人与机器人和机器人与机器人之间的协作，因此自动导引车 ( AGV）也是潜在的动态对象。因此，总共收集了 3,000 张 AGV 图像来训练实例分割网络，其中一些 AGV 如图 4 所示。 2.评估实例分割性能 评估 COCO 数据集上关于分割损失和平均精度（mAP）的分割性能。该评估的目的是将我们采用的实例分割网络 SOLOv2 与所提出的方法进行比较。结果如表I所示。分割结果在图 3 中进一步可视化： 3. 稠密建图和动态跟踪 建图如图5所示，能够识别潜在移动的物体并且从静态地图中将其分离开来。定位结果如图6所示： 4.定位漂移的消融实验

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2921

浏览量
108141
应用程序

应用程序

+关注

关注
38

文章
3299

浏览量
57992
SLAM算法

SLAM算法

+关注

关注
0

文章
11

浏览量
2558

原文标题：复杂动态环境的多模态语义 SLAM(arxiv 2022)

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

体验MiniCPM-V 2.6 多模态能力

多模态组网

jf_23871869

发布于 :2025年01月20日 13:40:48

采用ANSYS的三浮陀螺仪框架的模态分析

本帖最后由 richthoffen 于 2020-5-14 09:35 编辑采用ANSYS的三浮陀螺仪框架的模态分析

发表于 05-14 09:31

HOOFR-SLAM的系统框架及其特征提取

Intelligent Vehicles Applications1. 介绍2. HOOFR-SLAM2.1 系统框架2.2 HOOFR特征提取2.3 映射线程2.3.1 特征匹配1. 介绍提出一种HOOFR-...

发表于 12-21 06:35

多模态生物特征识别系统框架

针对多模态生物特征识别系统并行融合模式中使用方便性和使用效率方面的问题，在现有序列化多模态生物特征识别系统的基础上，提出了一种结合并行融合和序列化融合的

发表于 01-02 18:47 •0次下载

<b class='flag-5'>多</b><b class='flag-5'>模态</b>生物特征识别系统<b class='flag-5'>框架</b>

高仙SLAM具体的技术是什么？SLAM2.0有哪些优势？

高仙的SLAM2.0技术体系核心，是基于多传感器融合+深度学习的架构，即语义SLAM。高仙SLAM2.0技术方案以

发表于 05-15 16:48 •9104次阅读

基于语义耦合相关的判别式跨模态哈希特征表示学习算法

基于哈希的跨模态检索以其存储消耗低、査询速度快等优点受到广泛的关注。跨模态哈希学习的核心问题是如何对不同模态数据进行有效地共享语义空间嵌入学习。大多数算法在对

发表于 03-31 11:28 •12次下载

基于<b class='flag-5'>语义</b>耦合相关的判别式跨<b class='flag-5'>模态</b>哈希特征表示学习算法

基于语义耦合相关的判别式跨模态哈希学习算法

发表于 06-07 16:36 •7次下载

自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

了许多解决深度多模态感知问题的方法。然而，对于网络架构的设计，并没有通用的指导方针，关于“融合什么”、“何时融合”和“如何融合”的问题仍然没有定论。本文系统地总结了自动驾驶中深度多模态

发表于 06-06 10:37 •0次下载

TRO新文：用于数据关联、建图和高级任务的对象级SLAM框架

总的来说,框架实现稳健的数据关联、精确的物体参数化以及基于语义对象地图的高层应用,解决了对象SLAM涉及的主要挑战。语义对象地图能为机器人抓取、导航、规划等复杂任务提供必要信息,有助于

发表于 07-14 16:49 •791次阅读

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态指令微调的方式，统一到一个框架中。具体地

发表于 08-31 15:29 •1662次阅读

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到

发表于 09-25 17:26 •847次阅读

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同模态的信息，并且能够在多个模态之间建立准确的

发表于 11-23 15:46 •787次阅读

OneLLM：对齐所有模态的框架！

OneLLM 是第一个在单个模型中集成八种不同模态的MLLM。通过统一的框架和渐进式多模态对齐pipelines，可以很容易地扩展OneLLM以包含更多数据模式。

发表于 01-04 11:27 •1097次阅读

利用VLM和MLLMs实现SLAM语义增强

（VLM）和多模态大语言模型（MLLMs）来强化此类环境中的对象级语义映射。 • 文章： Learning from Feedback: Semantic Enhancement for Object

发表于 12-05 10:00 •327次阅读

字节跳动发布OmniHuman 多模态框架

2 月 6 日消息，字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架，其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片，再结合一段输入音频，就能生成

发表于 02-07 17:50 •410次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于多模态语义SLAM框架

评论

体验MiniCPM-V 2.6 多模态能力

采用ANSYS的三浮陀螺仪框架的模态分析

HOOFR-SLAM的系统框架及其特征提取

多模态生物特征识别系统框架

高仙SLAM具体的技术是什么？SLAM2.0有哪些优势？

基于语义耦合相关的判别式跨模态哈希特征表示学习算法

基于语义耦合相关的判别式跨模态哈希学习算法

自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

TRO新文：用于数据关联、建图和高级任务的对象级SLAM框架

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

OneLLM：对齐所有模态的框架！

利用VLM和MLLMs实现SLAM语义增强

字节跳动发布OmniHuman 多模态框架