0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于视觉定位的2D-3D匹配方法GAM

3D视觉工坊 来源:3D视觉工坊 2023-02-16 10:18 次阅读

主要内容:

提出了一种新的2D-3D匹配方法,几何辅助匹配(GAM),使用外观信息和几何上下文来改进2D-3D特征匹配,可以在保持高精度的同时增强2D-3D匹配的recall,将GAM插入到分层视觉定位pipeline中,表明GAM可以有效地提高定位的鲁棒性和准确性,其实验表明,GAM可以找到比手工启发式和学习的方法更正确的匹配,在多个视觉定位数据集上获得了最先进的结果。

Contributions:

提出了GAM,首先根据视觉外观为每个2D点建立多个候选匹配,然后根据几何上下文过滤不正确的匹配。

提出了一种称为BMNet的深度神经网络来处理多对多候选匹配,它可以预测每个2D-3D匹配的几何先验并输出全局最优匹配集。

提出了一种具有新场景检索策略的分层视觉定位方法,进一步提高了姿态估计的鲁棒性。

所提出的定位方法在多个数据集上优于最先进的方法。

几何辅助匹配:

583fcf36-ad34-11ed-bfe3-dac502259ad0.png

58593cbe-ad34-11ed-bfe3-dac502259ad0.png

网络架构:

5877fa6e-ad34-11ed-bfe3-dac502259ad0.png

589dd0e0-ad34-11ed-bfe3-dac502259ad0.png

58b3f028-ad34-11ed-bfe3-dac502259ad0.png

Hungarian Pooling:

如果直接训练g(g;θ),网络参数将很难学习,因为几何一致性可能与监督冲突,如下图所示。

58cad842-ad34-11ed-bfe3-dac502259ad0.png

2D图像点与在3D空间中接近的两个3D点匹配,在相同的相机姿势下,它们可能都有小的重投影误差,网络易于根据提取的几何特征为它们生成相似的权重,这两种对应关系都被认为是几何一致的。

然而其中只有一个是inlier,其余的则是outlier,多个对应具有相似的几何特征但具有不同标签的这种差异使得网络难以收敛。

为了解决这个问题,将匈牙利算法引入到网络中进行端到端训练。匈牙利算法可以找到全局最优的一对一匹配,因为只选择了两个对应关系中的一个,所以可以消除几何一致性和监督之间的差异。

基于由g(g;θ)预测的权重向量w和二分图g,权重矩阵w被构造为:

58e217c8-ad34-11ed-bfe3-dac502259ad0.png

其中W的未填充元素被设置为0,然后将匈牙利算法应用于该权重矩阵W获得匹配M的最大权重。分配向量s由下列公式获得:

58efcd46-ad34-11ed-bfe3-dac502259ad0.png

由于输出边缘来自输入边缘的子集,引入匈牙利算法的层可以被视为一个特殊的采样层,称之为匈牙利池,端到端训练中使用的反向传播公式如下:

590280bc-ad34-11ed-bfe3-dac502259ad0.png

分层定位pipeline:

59195f26-ad34-11ed-bfe3-dac502259ad0.png

对于查询图像,提取其全局特征和局部特征,全局特征用于粗略定位以确定要匹配的3D点集,提取的局部特征和结合相应描述符的3D点集都被送到GAM中以获得全局最优2D-3D对应。

整个定位过程分为三个模块,即场景检索、2D-3D特征匹配和先验引导姿态估计。

场景检索:

594184ba-ad34-11ed-bfe3-dac502259ad0.png

596cbdce-ad34-11ed-bfe3-dac502259ad0.png

2D-3D特征匹配:

根据场景检索的顺序执行GAM并输出匹配的2D-3D对应,对于第k个场景597d6ad4-ad34-11ed-bfe3-dac502259ad0.png,获取其3D点和相应的描述子来构建3D特征集,在从查询图像提取的2D局部特征和3D特征之间执行GAM,输出匹配M的最大权重,根据欧氏距离执行kNN比率匹配,当描述子被归一化时,这可以通过矩阵运算有效地实现。

先验引导的姿态估计:

由于M中仍然存在一些错误匹配,在RANSAC循环中应用PnP解算器,在RANSAC loop中,采样2D-3D对应的概率由BMNet预测的似然决定,这使得能够以更大的机会对可能的inlier进行采样。

实验:

首先进行了2D-3D匹配实验,表明GAM以比手工制作的方法和学习方法更高的精度找到更多的真实匹配。

数据集:MegaDepth数据集中选择一个位置作为2D-3D匹配评估的测试数据集。

将GAM与传统手工制作方法和学习匹配方法进行了比较 使用最近邻(NN)匹配器从描述符空间中的每个2D点的所有3D点中找到最近邻,手工制作的异常值剔除方法包括比率测试(ratio)、距离阈值(distance)和彼此最近的邻居(cross check),因为没有其他基于学习的方法直接用于2D-3D特征匹配,因此将最近提出的一些在2D-2D匹配中表现良好的方法迁移到2D-3D进行比较,将LGCNet和OANet的输入从2D-2D对应替换为2D3D对应,即LGCNet-2D3D和OANet2D3D

598c397e-ad34-11ed-bfe3-dac502259ad0.png

评估GAM在视觉定位方面的有效性以及提出的视觉定位框架: 数据集:Aachen Day-Night

599b47a2-ad34-11ed-bfe3-dac502259ad0.png

与SOTA定位方法的比较: 数据集:Cambridge Landmarks 和Aachen Day-Night

59b3d696-ad34-11ed-bfe3-dac502259ad0.png59cbcd96-ad34-11ed-bfe3-dac502259ad0.png

总结:


提出了一种用于视觉定位的2D-3D匹配方法GAM,同时使用外观信息和几何上下文来提高匹配性能,在保持高精度的同时提高了2D-3D匹配的召回率,其引入了一种新的二部匹配神经网络BMNet以提取2D-3D对应的几何特征,并可以学习全局几何一致性以预测每个对应的真实匹配的可能性,还将匈牙利算法集成到BMNet中作为一个特殊的池层以端到端的方式找到最大权重匹配,使得定位能够获得更正确的匹配从而提高了定位的鲁棒性和准确性。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100751
  • gam
    gam
    +关注

    关注

    0

    文章

    5

    浏览量

    7277
  • 匹配器
    +关注

    关注

    0

    文章

    6

    浏览量

    5725

原文标题:用几何信息来辅助基于特征的视觉定位(arxiv 2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出了一种方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的
    的头像 发表于 12-13 11:18 141次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的新<b class='flag-5'>方法</b>

    一种将NeRFs应用于视觉定位任务的新方法

    视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。
    的头像 发表于 10-28 10:03 197次阅读
    <b class='flag-5'>一种</b>将NeRFs应<b class='flag-5'>用于</b><b class='flag-5'>视觉</b><b class='flag-5'>定位</b>任务的新<b class='flag-5'>方法</b>

    用于3D机器视觉的高度可扩展的TI DLP技术

    电子发烧友网站提供《适用于3D机器视觉的高度可扩展的TI DLP技术.pdf》资料免费下载
    发表于 08-23 09:57 0次下载
    适<b class='flag-5'>用于</b><b class='flag-5'>3D</b>机器<b class='flag-5'>视觉</b>的高度可扩展的TI DLP技术

    3D视觉引导的多SKU纸箱拆解

    在物流和包装行业中,处理多种SKU纸箱的拆解是个常见的操作难题。传统方法往往因为纸箱的尺寸、形状和重量多样性而遇到困难。为了解决这个问题,富唯智能提出了一种基于3D
    的头像 发表于 07-05 18:11 610次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>视觉</b>引导的多SKU纸箱拆解

    苏州吴中区多色PCB板元器件3D视觉检测技术

    3D视觉检测相较于2D视觉检测,有其独特的优势,不受产品表面对比度影响,精确检出产品形状,可以测出高度(厚度)、体积、平整度等。在实际应用中可以与2
    的头像 发表于 06-14 15:02 409次阅读
    苏州吴中区多色PCB板元器件<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>检测技术

    英伦科技的15.6寸2D-3D可切换光场裸眼3D显示屏有哪些特点?

    随着科技的快速发展,人类对于视觉体验的追求也在不断攀升。从平面的2D图像到立体的3D影像,我们直在探索如何让虚拟世界更加逼真。如今,英伦科技凭借其创新实力,推出了
    的头像 发表于 05-28 11:17 361次阅读
    英伦科技的15.6寸<b class='flag-5'>2D-3D</b>可切换光场裸眼<b class='flag-5'>3D</b>显示屏有哪些特点?

    激光焊接视觉定位引导方法

    激光焊接是一种高效、精确的焊接技术,广泛应用于汽车制造、航空航天、电子产品等领域。随着工业自动化和智能化的发展,激光焊接的精度和效率需求日益增加。在此背景下,视觉定位引导技术成为提升激
    的头像 发表于 05-28 10:34 519次阅读
    激光焊接<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>引导<b class='flag-5'>方法</b>

    3D视觉引导方案解决工厂产线上下料难题

    3D视觉引导方案,下料器的摆放精度直接关系到产品的最终质量和生产效率。如何在繁忙的生产线上,确保下料器能够精准无误地将工件放置在指定位置,成为了摆在我们面前的大挑战。今天,我们就来揭
    的头像 发表于 05-27 15:47 412次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>视觉</b>引导方案解决工厂产线上下料难题

    有了2D NAND,为什么要升级到3D呢?

    2D NAND和3D NAND都是非易失性存储技术(NVM Non-VolatileMemory),属于Memory(存储器)的一种
    的头像 发表于 03-17 15:31 1016次阅读
    有了<b class='flag-5'>2D</b> NAND,为什么要升级到<b class='flag-5'>3D</b>呢?

    Nullmax提出多相机3D目标检测新方法QAF2D

    今天上午,计算机视觉领域顶会CVPR公布了最终的论文接收结果,Nullmax感知部门的3D目标检测研究《Enhancing 3D Object Detection with 2D De
    的头像 发表于 02-27 16:38 1135次阅读
    Nullmax提出多相机<b class='flag-5'>3D</b>目标检测新<b class='flag-5'>方法</b>QAF<b class='flag-5'>2D</b>

    工业自动化,3D视觉在五金件上下料中的应用

    3D视觉引导五金件上下料是一种先进的自动化解决方案,结合了3D视觉技术和机器人技术,实现对五金件的高效、准确上下料操作。以下是关于
    的头像 发表于 02-21 11:38 489次阅读
    工业自动化,<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>在五金件上下料中的应用

    高分工作!Uni3D3D基础大模型,刷新多个SOTA!

    我们主要探索了3D视觉中scale up模型参数量和统模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很imp
    的头像 发表于 01-30 15:56 875次阅读
    高分工作!Uni<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b>基础大模型,刷新多个SOTA!

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法
    的头像 发表于 01-13 11:37 1065次阅读

    一种用于2D/3D图像处理算法的指令集架构以及对应的算法部署方法

    二维(2D)和三维(3D)双模视觉信息在自动驾驶、工业机器人、人机交互等前沿领域具有广泛的应用前景。
    的头像 发表于 01-05 10:35 461次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>用于</b><b class='flag-5'>2D</b>/<b class='flag-5'>3D</b>图像处理算法的指令集架构以及对应的算法部署<b class='flag-5'>方法</b>

    用于3D对象检测的点云深度学习方法

    随着激光雷达传感器(“光检测和测距”的缩写,有时称为“激光扫描”,现在在些最新的 iPhone 上可用)或 RGB-D 摄像头(一种 RGB-D 摄像头)的兴起,
    的头像 发表于 01-03 10:32 1089次阅读
    两<b class='flag-5'>种</b>应<b class='flag-5'>用于</b><b class='flag-5'>3D</b>对象检测的点云深度学习<b class='flag-5'>方法</b>