0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于多模态语义SLAM框架

lhl545545 来源:3D视觉工坊 作者:3D视觉工坊 2022-08-31 09:39 次阅读

摘要

4963fc12-28b9-11ed-ba43-dac502259ad0.png   大家好,今天为大家带来的文章是 Multi-modal Semantic SLAM for Complex Dynamic Environments 同时定位和建图(SLAM)是许多现实世界机器人应用中最重要的技术之一。静态环境的假设在大多数 SLAM 算法中很常见,但是对于大多数应用程序来说并非如此。最近关于语义 SLAM 的工作旨在通过执行基于图像的分割来理解环境中的对象并从场景上下文中区分动态信息。然而,分割结果往往不完善或不完整,这会降低映射的质量和定位的准确性。在本文中,我们提出了一个强大的多模态语义框架来解决复杂和高度动态环境中的 SLAM 问题。我们建议学习更强大的对象特征表示,并将三思而后行的机制部署到主干网络,从而为我们的基线实例分割模型带来更好的识别结果。此外,将纯几何聚类和视觉语义信息相结合,以减少由于小尺度物体、遮挡和运动模糊造成的分割误差的影响。已经进行了彻底的实验来评估所提出方法的性能。结果表明,我们的方法可以在识别缺陷和运动模糊下精确识别动态对象。此外,所提出的 SLAM 框架能够以超过 10 Hz 的处理速率有效地构建静态密集地图,这可以在许多实际应用中实现。训练数据和建议的方法都是开源的。 

主要工作与贡献

4963fc12-28b9-11ed-ba43-dac502259ad0.png   1. 本文提出了一个鲁棒且快速的多模态语义 SLAM 框架,旨在解决复杂和动态环境中的 SLAM 问题。具体来说,将仅几何聚类和视觉语义信息相结合,以减少由于小尺度对象、遮挡和运动模糊导致的分割误差的影响。 2. 本文提出学习更强大的对象特征表示,并将三思机制部署到主干网络,从而为基线实例分割模型带来更好的识别结果。 3. 对所提出的方法进行了全面的评估。结果表明,本文的方法能够提供可靠的定位和语义密集的地图

算法流程

4963fc12-28b9-11ed-ba43-dac502259ad0.png   499cabc0-28b9-11ed-ba43-dac502259ad0.png 图 2 是框架的概述。它主要由四个模块组成,分别是实例分割模块、多模态融合模块、定位模块和全局优化与映射模块。 1.实例分割和语义学习 使用2D实例分割网络,一张图像的实例分割结果: 49b12a50-28b9-11ed-ba43-dac502259ad0.png C代表类别,M是物体的掩码信息,n代表当前图像中存在物体数量。 图像在空间上被分成 N × N 个网格单元。如果一个对象的中心落入一个网格单元,该网格单元负责分别预测类别分支Bc和掩码分支P m 中对象的语义类别Cij和语义掩码Mij: 49bfaaee-28b9-11ed-ba43-dac502259ad0.png λ 是类的数量。φ 是网格单元的总数。 为了满足实时性的要求:采用SOLOv2 的轻量级版本,但精度较低,可实现实时实例分割。 为了提高分割精度:实施了多种方法来在骨干网络中构建更有效和更健壮的特征表示鉴别器。 输出是每个动态对象的像素级实例掩码,以及它们对应的边界框和类类型。为了更好地将动态信息集成到 SLAM 算法中,输出二进制掩码被转换为包含场景中所有像素级实例掩码的单个图像。蒙版落在其上的像素被认为是“动态状态”,否则被认为是“静态”。然后将二进制掩码应用于语义融合模块以生成 3D 动态掩码。 2.多模态融合 1.移动模糊补偿: 目前实例分割的性能已经是不错的,但是移动的物体会出现物体识别不完整 导致物体的边界不明确 最终影响定位精度。因此,本文首先实现形态膨胀,将 2D 像素级掩模图像与结构元素进行卷积,以逐渐扩展动态对象的区域边界。形态膨胀结果标志着动态对象周围的模糊边界。我们将动态对象及其边界作为动态信息,将在多模态融合部分进一步细化。 2.几何聚类和语义融合: 通过欧几里得空间的连通性分析进行补偿也在本文的工作中实现。实例分割网络在大多数实际情况下都具有出色的识别能力,但是由于区域之间的模糊像素,运动模糊限制了分割性能,导致了不希望的分割错误。因此,将点云聚类结果和分割结果结合起来,以更好地细化动态对象。特别是,对几何信息进行连通性分析,并与基于视觉的分割结果合并。 为了提高工作效率,首先将 3D 点云缩小以减少数据规模,并将其用作点云聚类的输入。然后将实例分割结果投影到点云坐标上,对每个点进行标注。当大多数点(90%)是动态标记点时,点云簇将被视为动态簇。当静态点靠近动态点簇时,它会被重新标记为动态标签。并且当附近没有动态点聚类时,动态点将被重新标记。 3.定位与位姿估计 1.特征提取: 多模态动态分割后,点云分为动态点云PD和静态点云PS。基于原先之前的工作,静态点云随后用于定位和建图模块。与现有的 SLAM 方法(如 LOAM )相比,原先之前的工作中提出的框架能够支持 30 Hz 的实时性能,速度要快几倍。与 ORB-SLAM2和 VINS-MONO 等视觉 SLAM 相比,它还可以抵抗光照变化。对于每个静态点 pk ∈ PS ,可以在欧几里得空间中通过半径搜索来搜索其附近的静态点集 Sk。让 |S|是集合 S 的基数,因此局部平滑度定义为: 49d33d52-28b9-11ed-ba43-dac502259ad0.png 边缘特征由 σk 大的点定义,平面特征由 σk 小的点定义。 2.数据关联: 通过最小化点到边缘和点到平面的距离来计算最终的机器人位姿。对于边缘特征点 pE ∈ PE ,可以通过 p^E = T·pE 将其转换为局部地图坐标,其中 T ∈ SE(3) 是当前位姿。从局部边缘特征图中搜索 2 个最近的边缘特征 p 1 E 和 p 2 E,点到边缘残差定义: 49e770b0-28b9-11ed-ba43-dac502259ad0.png 类似地,给定一个平面特征点 pL ∈ PL 及其变换点 p^L = T·pL,我们可以从局部平面图中搜索 3 个最近点 。点到平面残差定义为: 4a078d28-28b9-11ed-ba43-dac502259ad0.png3.位姿估计: 通过最小化点到平面和点到边缘残差的总和来计算最终的机器人位姿: 4a2eef30-28b9-11ed-ba43-dac502259ad0.png4.特征地图更新和关键帧选择: 一旦位姿优化解决,特征点将被更新到局部地图和平面地图当中。这些点将被用于一下帧的数据关联。当平移或者旋转的值大于阈值时候,该帧将被选作关键帧。 4.全局地图构建 全局语义地图由静态地图和动态地图构成。视觉信息用于构建测色密集静态地图。视觉信息能够反投影3D点到图像平面。为防止内存溢出的问题采用3d is here: Point cloud library (pcl)。

实验结果

4963fc12-28b9-11ed-ba43-dac502259ad0.png   1.数据获取 4a60bc7c-28b9-11ed-ba43-dac502259ad0.png 在自动驾驶、智能仓储物流等诸多场景中,人往往被视为动态对象。因此,本文从 COCO 数据集中选择了 5,000 张人体图像。在实验中,所提出的方法在仓库环境中进行评估,如图 4 所示。除了将人视为动态对象之外,先进的工厂还需要人与机器人和机器人与机器人之间的协作,因此自动导引车 ( AGV)也是潜在的动态对象。因此,总共收集了 3,000 张 AGV 图像来训练实例分割网络,其中一些 AGV 如图 4 所示。 2.评估实例分割性能 评估 COCO 数据集上关于分割损失和平均精度(mAP)的分割性能。该评估的目的是将我们采用的实例分割网络 SOLOv2 与所提出的方法进行比较。结果如表I所示。 4a9239b4-28b9-11ed-ba43-dac502259ad0.png 分割结果在图 3 中进一步可视化: 4aa6706e-28b9-11ed-ba43-dac502259ad0.png3. 稠密建图和动态跟踪 建图如 图5所示,能够识别潜在移动的物体并且从静态地图中将其分离开来。 4abe60de-28b9-11ed-ba43-dac502259ad0.png 定位结果 如图6所示: 4ae70836-28b9-11ed-ba43-dac502259ad0.png 4.定位漂移的消融实验 4b0780fc-28b9-11ed-ba43-dac502259ad0.png

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2875

    浏览量

    107481
  • 应用程序
    +关注

    关注

    37

    文章

    3265

    浏览量

    57677
  • SLAM算法
    +关注

    关注

    0

    文章

    11

    浏览量

    2528

原文标题:复杂动态环境的多模态语义 SLAM(arxiv 2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    采用ANSYS的三浮陀螺仪框架模态分析

    本帖最后由 richthoffen 于 2020-5-14 09:35 编辑 采用ANSYS的三浮陀螺仪框架模态分析
    发表于 05-14 09:31

    HOOFR-SLAM的系统框架及其特征提取

    Intelligent Vehicles Applications1. 介绍2. HOOFR-SLAM2.1 系统框架2.2 HOOFR特征提取2.3 映射线程2.3.1 特征匹配1. 介绍提出一种HOOFR-...
    发表于 12-21 06:35

    lABCIWQmultyWindows模态窗口2010

    lABCIWQmultyWindows模态窗口2010。
    发表于 05-17 17:47 0次下载

    文化场景下的模态情感识别

    自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征。包括传统的手工定制
    发表于 12-18 14:47 0次下载

    模态生物特征识别系统框架

    针对模态生物特征识别系统并行融合模式中使用方便性和使用效率方面的问题,在现有序列化模态生物特征识别系统的基础上,提出了一种结合并行融合和序列化融合的
    发表于 01-02 18:47 0次下载
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>生物特征识别系统<b class='flag-5'>框架</b>

    高仙SLAM具体的技术是什么?SLAM2.0有哪些优势?

    高仙的SLAM2.0技术体系核心,是基于传感器融合+深度学习的架构,即语义SLAM。高仙SLAM2.0技术方案以
    的头像 发表于 05-15 16:48 9016次阅读

    基于语义耦合相关的判别式跨模态哈希特征表示学习算法

    基于哈希的跨模态检索以其存储消耗低、査询速度快等优点受到广泛的关注。跨模态哈希学习的核心问题是如何对不同模态数据进行有效地共享语义空间嵌入学习。大多数算法在对
    发表于 03-31 11:28 12次下载
    基于<b class='flag-5'>语义</b>耦合相关的判别式跨<b class='flag-5'>模态</b>哈希特征表示学习算法

    基于语义耦合相关的判别式跨模态哈希学习算法

    基于语义耦合相关的判别式跨模态哈希学习算法
    发表于 06-07 16:36 7次下载

    自动驾驶深度模态目标检测和语义分割:数据集、方法和挑战

    了许多解决深度模态感知问题的方法。 然而,对于网络架构的设计,并没有通用的指导方针,关于“融合什么”、“何时融合”和“如何融合”的问题仍然没有定论。本文系统地总结了自动驾驶 中深度模态
    发表于 06-06 10:37 0次下载
    自动驾驶深度<b class='flag-5'>多</b><b class='flag-5'>模态</b>目标检测和<b class='flag-5'>语义</b>分割:数据集、方法和挑战

    TRO新文:用于数据关联、建图和高级任务的对象级SLAM框架

    总的来说,框架实现稳健的数据关联、精确的物体参数化以及基于语义对象地图的高层应用,解决了对象SLAM涉及的主要挑战。语义对象地图能为机器人抓取、导航、规划等复杂任务提供必要信息,有助于
    的头像 发表于 07-14 16:49 704次阅读
    TRO新文:用于数据关联、建图和高级任务的对象级<b class='flag-5'>SLAM</b><b class='flag-5'>框架</b>

    中科大&amp;字节提出UniDoc:统一的面向文字场景的模态大模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、模态理解等四个任务,通过多模态指令微调的方式,统一到一个框架中。具体地
    的头像 发表于 08-31 15:29 1539次阅读
    中科大&amp;字节提出UniDoc:统一的面向文字场景的<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型

    DreamLLM:多功能模态大型语言模型,你的DreamLLM~

    由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解的模态特定知识。因此,这些研究并没有充分认识到
    的头像 发表于 09-25 17:26 737次阅读
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模态</b>大型语言模型,你的DreamLLM~

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够在多个模态之间建立准确的
    的头像 发表于 11-23 15:46 710次阅读
    用语言对齐<b class='flag-5'>多</b><b class='flag-5'>模态</b>信息,北大腾讯等提出LanguageBind,刷新多个榜单

    OneLLM:对齐所有模态框架

    OneLLM 是第一个在单个模型中集成八种不同模态的MLLM。通过统一的框架和渐进式模态对齐pipelines,可以很容易地扩展OneLLM以包含更多数据模式。
    的头像 发表于 01-04 11:27 970次阅读
    OneLLM:对齐所有<b class='flag-5'>模态</b>的<b class='flag-5'>框架</b>!

    利用VLM和MLLMs实现SLAM语义增强

    (VLM)和模态大语言模型(MLLMs)来强化此类环境中的对象级语义映射。 • 文章: Learning from Feedback: Semantic Enhancement for Object
    的头像 发表于 12-05 10:00 119次阅读
    利用VLM和MLLMs实现<b class='flag-5'>SLAM</b><b class='flag-5'>语义</b>增强