0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用VLM和MLLMs实现SLAM语义增强

INDEMIND 来源:INDEMIND 2024-12-05 10:00 次阅读

语义同步定位与建图(SLAM)系统在对邻近的语义相似物体进行建图时面临困境,特别是在复杂的室内环境中。本文提出了一种面向对象SLAM的语义增强(SEO-SLAM)的新型SLAM系统,借助视觉语言模型(VLM)和多模态大语言模型(MLLMs)来强化此类环境中的对象级语义映射。

• 文章:

Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models

• 作者:

Jungseok Hong, Ran Choi, John J. Leonard

• 论文链接:

https://arxiv.org/abs/2411.06752

• 编译:

INDEMIND

• 数据集:

jungseokhong.com/SEO-SLAM

01 本文核心内容

SLAM已从专注于几何精度演变为融合语义信息,增强了其在诸如导航、操作和规划等下游任务中的效用。这一演进与计算机视觉深度学习的进步相契合,引入了更丰富且更精确的环境表征。近期在基础模型方面的发展,例如大语言模型(LLM)、视觉语言模型(VLM)、以及多模态大语言模型(MLLM),已表明它们能够在开放式词汇设定下从数据中提取语义信息。若干研究显示,基础模型能够对给定的包含语义特征的场景或地图进行空间推理。除了建图,还有研究提出了运用基础模型的语义SLAM。

024e6c00-ad86-11ef-93f3-92fbcf53809c.png

尽管取得了这些进展,语义SLAM仍存在关键挑战:(1)当探测器仅提供通用标签(例如,所有鞋子均用“鞋”表示)时,难以区分紧邻的相似物体。这导致相似物体融合为一个单一地标,如图1a所示。(2)错误地标在长时间维持地图一致性方面构成重大挑战。此问题可能由传感器测量的不确定性或场景变化引起,尤其在杂乱和动态的环境中。(3)对象探测器易受其训练数据集中固有偏差的影响,导致某些对象存在持续的语义错误。

为应对这些挑战,我们旨在利用基础模型的语义理解能力和SLAM的空间精度来构建在语义和空间上均一致的地图。基础模型具有强大的语义理解能力,但在没有预先构建且嵌入语义特征的地图时,空间推理能力有限。相反,SLAM系统擅长捕获空间信息,但往往难以维持可靠的语义信息。通过整合这些优势,我们提出了对象SLAM的语义增强(SemanticEnhancementforObjectSLAM,SEO-SLAM)这一新颖方法,该方法利用VLM和MLLM实现语义SLAM。

我们在具有挑战性的数据集上对SEO-SLAM进行评估,其在存在多个相似物体的环境中的准确性和稳健性明显提升。我们的系统在路标匹配精度和语义一致性方面优于现有方法。结果表明,MLLM的反馈改进了以对象为中心的语义映射。

02 主要贡献

1.将图像标记、基于标签的定位以及分割模型整合到SLAM流程中,以实现描述性开放式词汇对象检测,并优化地标的语义信息。

2.利用MLLMs为现有地标生成更具描述性的标签,并校正错误地标以减少感知混淆。

3.提出一种使用MLLM响应来更新多类别预测混淆矩阵并识别重复地标的方法。

4.实验结果表明,在具有多个紧邻相似对象的具有挑战性的场景中,对象语义映射精度得到了提高。

5.引入在单个场景中具有语义相似对象的数据集,其中包含里程计、真实轨迹数据和真实对象信息。

03 方法架构

SEO-SLAM旨在通过整合丰富的语义信息来解决MAP问题。为了适应开放式词汇表的语义,我们仅使用几何信息来优化MAP问题,并利用我们测量中的语义和几何信息之间的联系。这通过融合来自检测器和深度图像的语义信息来实现。我们的方法可以处理开放式词汇表的语义类别,无需为多类预测混淆矩阵的类预测统计信息提供先验知识。图2展示了我们SEO-SLAM管道的整体架构。

026321e0-ad86-11ef-93f3-92fbcf53809c.png

04 实验

A.数据采集

我们在室内房间环境中采集了六个涵盖日常物品的数据集(见表II)。依据现存物体的数量,我们将这些数据集归类为小(约10个)、中(约20个)或大(约30个)类别。我们采用ZED2i立体相机来收集RGB图像及里程数据。通过OptiTrack运动捕捉系统获取真实轨迹。为构建具有挑战性的场景,我们将相同类别的物体放置得较为临近。

B.实验设置

我们运用RAM++大型模型(加上swin大型模型)进行图像标注,并滤除那些过于宽泛且不代表单个物体的标签(例如,“坐”、“白色”、“许多物体”)。对象定位由GroundingDINO大型模型(swinbcogcoor)处理,而分割任务则使用带有ViT-H模型的SAM完成。在我们的RGS模型中,我们将置信度阈值设为0.5,将GroundingDINO的IoU阈值设为0.5。对于MLLMs,我们利用ChatGPTAPI(gpt-4o版本),在LandmarkEval和ClassLabelGen中均使用默认设置,并异步执行以优化我们的系统速度。

0270cd2c-ad86-11ef-93f3-92fbcf53809c.png

我们针对这六个数据集(见表II)开展了实验。我们的评估指标涵盖地标语义的准确性、错误地标的数量以及绝对位姿误差(APE)。我们对三种方法进行了比较:我们的SEO-SLAM方法,其使用RGS作为对象检测器,并结合基于MLLM的反馈来细化地标;单独使用RGS的方法,其运用RAM-Grounded-SAM进行开放词汇检测,且无MLLM反馈;以及YOLO方法(基准线),使用预先训练的YOLOv8进行对象检测。这种实验设置使我们能够全面评估在开放词汇环境中不同数据集和方法的语义映射性能以及轨迹精度。

C.结果

02751a76-ad86-11ef-93f3-92fbcf53809c.png

表III全面展示了在六个复杂程度各异的数据集上,我们的方法、RGS与YOLO之间语义映射性能的对比情况。结果表明,在语义准确性及地标数量估计方面,我们的方法始终优于其他两种方法。在多数数据集中,我们的方法达到了最高的精度和F1分数,这表明借助反馈,语义准确性得到了提升。在SM1、MD1和LG2中这一情况尤为显著,我们的方法保持了稳定的性能,而RGS和YOLO的表现则有所下降。值得注意的是,与其他方法相比,我们的方法通常产生的假阳性地标更少,这显示出其在复杂环境中的更强鲁棒性。我们的方法表现出色,这可归因于其能够利用MLLM反馈来细化地标描述并降低感知混叠。然而,在LG1中,我们的方法与RGS的表现相近,原因是每个帧中的物体数量较多,从而降低了MLLM反馈的质量。总体而言,结果证明了SEO-SLAM在提高语义映射准确性和减少假阳性方面,在各种环境复杂度下都是有效的。

0280b516-ad86-11ef-93f3-92fbcf53809c.png

我们还评估了每种方法相对于里程计的轨迹误差(图5)。在所有数据集中,我们的方法始终显示出更低的中位APE。RGS也表现良好,其中位误差较低,异常值少于YOLO。YOLO显示出最高的中位误差和异常值,因为YOLO只能检测训练数据集中的物体。这表明我们的开放式词汇检测器在各种条件下更具稳健性和准确性。图4展示了MD1数据集的定性结果。SEO-SLAM成功区分了邻近的物体,并展示了其根据场景变化更新语义地图的能力。虽然SEO-SLAM能够捕获大多数物体,但当物体过于靠近时,有时也会遇到困难。例如,它在场景中仅绘制了一本书。

D.局限性

虽然SEO-SLAM在语义映射方面取得了显著的改进,但仍需承认存在一些局限性。我们发现,在SEO-SLAM中,MLLM难以从颜色相近且同属一类的物体中生成非基于颜色的独特标签。此外,其性能对环境光照条件敏感,这可能会影响基于颜色的物体识别性能。未来,我们计划通过元提示,使MLLM能够依据物体的独特特征生成标签,以解决这些问题。

05 总结

我们提出了一种被命名为 SEO-SLAM 的创新方法,旨在拥挤的室内环境中强化对象级语义映射。此方法借助基础模型的语义理解能力,通过引入 MLLMs 的反馈来化解现有语义 SLAM 系统中的关键难题。借助反馈,SEO-SLAM 能够生成更具描述性的开放式词汇对象标签,同步校正导致虚假地标的诸因素,并动态更新多类混淆矩阵。实验结果显示,SEO-SLAM 在不同复杂程度的数据集上始终优于基线方法,提升了语义准确性、地标估计精度和轨迹准确性。该方法尤其善于降低假阳性地标数量,并增强在存在多个相似对象环境中的稳健性。故而,SEO-SLAM 标志着将基础模型的语义理解能力与 SLAM 系统的空间精度相融合的重大进展。本文为在复杂动态的环境中达成更精确且稳健的语义映射开辟了崭新的路径。(想要了解更多文章细节的读者,可以阅读一下论文原文~)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3206

    浏览量

    48793
  • SLAM
    +关注

    关注

    23

    文章

    420

    浏览量

    31806
  • LLM
    LLM
    +关注

    关注

    0

    文章

    283

    浏览量

    321

原文标题:更准确,更鲁棒!利用VLM和MLLMs实现SLAM语义增强

文章出处:【微信号:gh_c87a2bc99401,微信公众号:INDEMIND】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    最新图优化框架,全面提升SLAM定位精度

    已经实现了准确的估计。然而,在大规模问题中更新协方差矩阵在计算上是昂贵的。基于图的方法最早由Lu和Milios在1997年引入,随着图的增长,计算成本较低。随着计算能力的提高,基于图的SLAM的优化算法
    的头像 发表于 11-12 11:26 264次阅读
    最新图优化框架,全面提升<b class='flag-5'>SLAM</b>定位精度

    MG-SLAM:融合结构化线特征优化高斯SLAM算法

    信息和提供准确的全局重建方面表现出显著的进步,而传统系统则基于稀疏点云或体素。然而,NeRF 方法仍然存在过度平滑、场景表示受限和计算效率低下等缺点。最近,基于高斯的 SLAM已成为一种利用体积辐射场
    的头像 发表于 11-11 16:17 243次阅读
    MG-<b class='flag-5'>SLAM</b>:融合结构化线特征优化高斯<b class='flag-5'>SLAM</b>算法

    使用语义线索增强局部特征匹配

    视觉匹配是关键计算机视觉任务中的关键步骤,包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器,这需要成对的图像。这些神经网络对两幅图像的特征有很好的总体理解,但它们经常难以匹配不同语义区域的点。
    的头像 发表于 10-28 09:57 169次阅读
    使用<b class='flag-5'>语义</b>线索<b class='flag-5'>增强</b>局部特征匹配

    从算法角度看 SLAM(第 2 部分)

    作者: Aswin S Babu 正如我们在[第 1 部分]中所讨论的,SLAM 是指在无地图区域中估计机器人车辆的位置,同时逐步绘制该区域地图的过程。根据使用的主要技术,SLAM 算法可分为三种
    的头像 发表于 10-02 16:39 292次阅读
    从算法角度看 <b class='flag-5'>SLAM</b>(第 2 部分)

    利用相对湿度传感器增强功能实现超低功耗系统

    电子发烧友网站提供《利用相对湿度传感器增强功能实现超低功耗系统.pdf》资料免费下载
    发表于 09-27 10:39 0次下载
    <b class='flag-5'>利用</b>相对湿度传感器<b class='flag-5'>增强</b>功能<b class='flag-5'>实现</b>超低功耗系统

    利用JTAGLOCK特性增强设备安全性

    电子发烧友网站提供《利用JTAGLOCK特性增强设备安全性.pdf》资料免费下载
    发表于 09-14 10:06 0次下载
    <b class='flag-5'>利用</b>JTAGLOCK特性<b class='flag-5'>增强</b>设备安全性

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义分割的基本原理 1.1
    的头像 发表于 07-17 09:56 399次阅读

    深度解析深度学习下的语义SLAM

    随着深度学习技术的兴起,计算机视觉的许多传统领域都取得了突破性进展,例如目标的检测、识别和分类等领域。近年来,研究人员开始在视觉SLAM算法中引入深度学习技术,使得深度学习SLAM系统获得了迅速发展,并且比传统算法展现出更高的精度和更强的环境适应性。
    发表于 04-23 17:18 1276次阅读
    深度解析深度学习下的<b class='flag-5'>语义</b><b class='flag-5'>SLAM</b>

    苹果发布研究论文:揭示Ferret-UI AI系统,破解MLLMs移动应用理解难题

    目前围绕人工智能(AI)技术,出现了如ChatGPT这样的大语言模型(LLMs),这些模型擅长处理文本资料。然而,对于像图片、视频和声音等多媒体类型的非文本n内容,就需要扩大AI模型的适用范围,相应地,多模态大语言模型(MLLMs)也就应运而生。
    的头像 发表于 04-10 10:17 425次阅读

    什么是SLAMSLAM算法涉及的4要素

    SLAM技术可以应用在无人驾驶汽车、无人机、机器人、虚拟现实等领域中,为这些领域的发展提供了支持。SLAM技术的发展已经逐渐从单纯的定位和地图构建转向了基于场景理解的功能。
    发表于 04-04 11:50 2285次阅读

    什么是SLAM?基于3D高斯辐射场的SLAM优势分析

    基于NeRF的SLAM算法采用全局地图和图像重建损失函数,通过可微分渲染捕获稠密的光度信息,具有高保真度。
    的头像 发表于 04-01 12:44 708次阅读

    从基本原理到应用的SLAM技术深度解析

    LSD-SLAM 即 Large-Scale Direct SLAM,兼容单目相机和双目相机。LSD-SLAM是一种基于光流跟踪的直接法SLAM,但是
    发表于 02-26 09:41 9114次阅读
    从基本原理到应用的<b class='flag-5'>SLAM</b>技术深度解析

    基于NeRF/Gaussian的全新SLAM算法

    基于NeRF的SLAM算法采用全局地图和图像重建损失函数,通过可微分渲染捕获稠密的光度信息,具有高保真度。
    的头像 发表于 01-26 10:48 636次阅读
    基于NeRF/Gaussian的全新<b class='flag-5'>SLAM</b>算法

    动态环境中基于神经隐式表示的RGB-D SLAM

    神经隐式表示已经被探索用于增强视觉SLAM掩码算法,特别是在提供高保真的密集地图方面。
    的头像 发表于 01-17 10:39 889次阅读
    动态环境中基于神经隐式表示的RGB-D <b class='flag-5'>SLAM</b>