0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用于视觉定位的2D-3D匹配方法GAM

3D视觉工坊 来源:3D视觉工坊 2023-02-16 10:18 次阅读

主要内容:

提出了一种新的2D-3D匹配方法,几何辅助匹配(GAM),使用外观信息和几何上下文来改进2D-3D特征匹配,可以在保持高精度的同时增强2D-3D匹配的recall,将GAM插入到分层视觉定位pipeline中,表明GAM可以有效地提高定位的鲁棒性和准确性,其实验表明,GAM可以找到比手工启发式和学习的方法更正确的匹配,在多个视觉定位数据集上获得了最先进的结果。

Contributions:

提出了GAM,首先根据视觉外观为每个2D点建立多个候选匹配,然后根据几何上下文过滤不正确的匹配。

提出了一种称为BMNet的深度神经网络来处理多对多候选匹配,它可以预测每个2D-3D匹配的几何先验并输出全局最优匹配集。

提出了一种具有新场景检索策略的分层视觉定位方法,进一步提高了姿态估计的鲁棒性。

所提出的定位方法在多个数据集上优于最先进的方法。

几何辅助匹配:

583fcf36-ad34-11ed-bfe3-dac502259ad0.png

58593cbe-ad34-11ed-bfe3-dac502259ad0.png

网络架构:

5877fa6e-ad34-11ed-bfe3-dac502259ad0.png

589dd0e0-ad34-11ed-bfe3-dac502259ad0.png

58b3f028-ad34-11ed-bfe3-dac502259ad0.png

Hungarian Pooling:

如果直接训练g(g;θ),网络参数将很难学习,因为几何一致性可能与监督冲突,如下图所示。

58cad842-ad34-11ed-bfe3-dac502259ad0.png

2D图像点与在3D空间中接近的两个3D点匹配,在相同的相机姿势下,它们可能都有小的重投影误差,网络易于根据提取的几何特征为它们生成相似的权重,这两种对应关系都被认为是几何一致的。

然而其中只有一个是inlier,其余的则是outlier,多个对应具有相似的几何特征但具有不同标签的这种差异使得网络难以收敛。

为了解决这个问题,将匈牙利算法引入到网络中进行端到端训练。匈牙利算法可以找到全局最优的一对一匹配,因为只选择了两个对应关系中的一个,所以可以消除几何一致性和监督之间的差异。

基于由g(g;θ)预测的权重向量w和二分图g,权重矩阵w被构造为:

58e217c8-ad34-11ed-bfe3-dac502259ad0.png

其中W的未填充元素被设置为0,然后将匈牙利算法应用于该权重矩阵W获得匹配M的最大权重。分配向量s由下列公式获得:

58efcd46-ad34-11ed-bfe3-dac502259ad0.png

由于输出边缘来自输入边缘的子集,引入匈牙利算法的层可以被视为一个特殊的采样层,称之为匈牙利池,端到端训练中使用的反向传播公式如下:

590280bc-ad34-11ed-bfe3-dac502259ad0.png

分层定位pipeline:

59195f26-ad34-11ed-bfe3-dac502259ad0.png

对于查询图像,提取其全局特征和局部特征,全局特征用于粗略定位以确定要匹配的3D点集,提取的局部特征和结合相应描述符的3D点集都被送到GAM中以获得全局最优2D-3D对应。

整个定位过程分为三个模块,即场景检索、2D-3D特征匹配和先验引导姿态估计。

场景检索:

594184ba-ad34-11ed-bfe3-dac502259ad0.png

596cbdce-ad34-11ed-bfe3-dac502259ad0.png

2D-3D特征匹配:

根据场景检索的顺序执行GAM并输出匹配的2D-3D对应,对于第k个场景597d6ad4-ad34-11ed-bfe3-dac502259ad0.png,获取其3D点和相应的描述子来构建3D特征集,在从查询图像提取的2D局部特征和3D特征之间执行GAM,输出匹配M的最大权重,根据欧氏距离执行kNN比率匹配,当描述子被归一化时,这可以通过矩阵运算有效地实现。

先验引导的姿态估计:

由于M中仍然存在一些错误匹配,在RANSAC循环中应用PnP解算器,在RANSAC loop中,采样2D-3D对应的概率由BMNet预测的似然决定,这使得能够以更大的机会对可能的inlier进行采样。

实验:

首先进行了2D-3D匹配实验,表明GAM以比手工制作的方法和学习方法更高的精度找到更多的真实匹配。

数据集:MegaDepth数据集中选择一个位置作为2D-3D匹配评估的测试数据集。

将GAM与传统手工制作方法和学习匹配方法进行了比较 使用最近邻(NN)匹配器从描述符空间中的每个2D点的所有3D点中找到最近邻,手工制作的异常值剔除方法包括比率测试(ratio)、距离阈值(distance)和彼此最近的邻居(cross check),因为没有其他基于学习的方法直接用于2D-3D特征匹配,因此将最近提出的一些在2D-2D匹配中表现良好的方法迁移到2D-3D进行比较,将LGCNet和OANet的输入从2D-2D对应替换为2D3D对应,即LGCNet-2D3D和OANet2D3D

598c397e-ad34-11ed-bfe3-dac502259ad0.png

评估GAM在视觉定位方面的有效性以及提出的视觉定位框架: 数据集:Aachen Day-Night

599b47a2-ad34-11ed-bfe3-dac502259ad0.png

与SOTA定位方法的比较: 数据集:Cambridge Landmarks 和Aachen Day-Night

59b3d696-ad34-11ed-bfe3-dac502259ad0.png59cbcd96-ad34-11ed-bfe3-dac502259ad0.png

总结:


提出了一种用于视觉定位的2D-3D匹配方法GAM,同时使用外观信息和几何上下文来提高匹配性能,在保持高精度的同时提高了2D-3D匹配的召回率,其引入了一种新的二部匹配神经网络BMNet以提取2D-3D对应的几何特征,并可以学习全局几何一致性以预测每个对应的真实匹配的可能性,还将匈牙利算法集成到BMNet中作为一个特殊的池层以端到端的方式找到最大权重匹配,使得定位能够获得更正确的匹配从而提高了定位的鲁棒性和准确性。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4652

    浏览量

    99487
  • gam
    gam
    +关注

    关注

    0

    文章

    5

    浏览量

    7248
  • 匹配器
    +关注

    关注

    0

    文章

    6

    浏览量

    5689

原文标题:用几何信息来辅助基于特征的视觉定位(arxiv 2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    我用香橙派做了个Klipper 3D打印控制器

    个好用的Klipper 3D打印机,定离不开个可以稳定进行无线通信,而且性能足够,最重要是价格亲民的上位机。 所谓Klipper,简单来说就是
    发表于 06-11 09:45

    激光焊接视觉定位引导方法

    激光焊接是一种高效、精确的焊接技术,广泛应用于汽车制造、航空航天、电子产品等领域。随着工业自动化和智能化的发展,激光焊接的精度和效率需求日益增加。在此背景下,视觉定位引导技术成为提升激
    的头像 发表于 05-28 10:34 161次阅读
    激光焊接<b class='flag-5'>视觉</b><b class='flag-5'>定位</b>引导<b class='flag-5'>方法</b>

    头盔3D扫描逆向工程3d建模抄数测绘服务-CASAIM中科广电

    3D扫描
    中科院广州电子
    发布于 :2024年04月12日 14:03:01

    包含具有多种类型信息的3D模型

    项目阶段集成在起。同时,还提供易于使用的数据交换,可在2D3D工作方法之间快速切换,以提供具有程序精度的高质量信息。 其他常用于支持建筑
    发表于 03-28 17:18

    3D动画原理:电阻

    电阻3D
    深圳崧皓电子
    发布于 :2024年03月19日 06:49:19

    3D粒子动画,创意人体运动视觉特效 #粒子特效 #数字孪生

    3D数字孪生
    阿梨是苹果
    发布于 :2024年01月15日 10:09:50

    友思特C系列3D相机:实时3D点云图像

    3D相机
    虹科光电
    发布于 :2024年01月10日 17:39:25

    OpenHarmony开源GPU库Mesa3D适配说明

    介绍的是另外一种开源实现的方式:mesa3D。 Mesa3D 图形库就是OpenGL API的一种开源实现。新版本还支持OpenCL、OpenGL ES等等。Mesa
    发表于 12-25 11:38

    一种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出了一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能预瞄控制方法 , 实现了
    发表于 09-25 07:23

    3D视觉引导机器人自动挑选螺栓,比人工还快速高效

    机器人3D视觉
    fuweizn
    发布于 :2023年09月21日 13:27:26

    基于HALCON的模板匹配方法总结

    用于不同地图像特征,但都有创建模板和寻找模板地相同过程。这三种方法里面,我主要就第三基于形状地匹配,做了许多地实验,因此也做了基于形状
    发表于 09-19 06:13