使用语义线索增强局部特征匹配-电子发烧友网

来源：3D视觉工坊

1. 导读

视觉匹配是关键计算机视觉任务中的关键步骤，包括摄像机定位、图像配准和运动结构。目前最有效的匹配关键点的技术包括使用经过学习的稀疏或密集匹配器，这需要成对的图像。这些神经网络对两幅图像的特征有很好的总体理解，但它们经常难以匹配不同语义区域的点。本文提出了一种新的方法，通过将语义推理结合到现有的描述符中，使用来自基础视觉模型特征(如DINOv2)的语义线索来增强局部特征匹配。因此，与学习匹配器不同，学习描述符在推理时不需要图像对，允许使用相似性搜索进行特征缓存和快速匹配。我们提出了六个现有描述符的改编版本，在相机定位方面的性能平均提高了29%，在两个现有基准中与LightGlue和LoFTR等现有匹配器的准确性相当。

2. 引言

视觉匹配关系对于相机姿态估计、同步定位与地图构建（SLAM）以及运动恢复结构（SfM）等重要高级视觉任务至关重要。最近，用于在图像对之间寻找视觉匹配关系的流程正在发生变化，更偏向于采用提供不同类型上下文聚合的方法，如学习的稀疏匹配器或密集对应关系网络。这些方法依赖于从两个视角收集信息，以调节特征，从而更好地预测对应关系。尽管它们已被证明在下游任务中能提供更好的结果，但需要对每对图像都运行一次，因此在诸如SfM流程等大型任务中使用成本高昂，在这些任务中，单张图像将与其他具有相似视点的图像多次匹配。虽然传统的单视图流程可以为单个图像预先提取特征，并使用高效的相似性搜索（如互最近邻MNN），但其表现不如上下文聚合方法。

本文提出了一种方法，通过语义调节关键点描述符，以找到更好且更一致的对应关系，同时保持单视图提取和缓存的优势。基础模型（如DINOv2和SAM）可以提取包含场景中语义概念理解的特征，以补充局部纹理模式。通过冻结主干网络并针对特定任务训练新层，这些特征可以适应于各种任务，例如图像分类、实例检索、视频理解、深度估计、语义分割和语义匹配。为了捕捉场景和对象的意义，DINOv2等模型已经发展出对局部纹理变化具有强大不变性的能力。然而，这些特征的高度不变性在识别图像之间的像素级匹配时会降低其敏感性。相反，它们可以为区域之间的一致性提供基础，这可用于过滤视觉上相似但语义上不同的区域之间的连接。

在本文中，我们提出了一种有效的技术，不是依赖于双视图上下文聚合，而是利用来自大型视觉模型（LVM）的高级特征理解，来语义调节基于纹理的对应关系。

3. 效果展示

利用语义信息改善视觉匹配关系。该图示展示了使用互最近邻（MNN）对基础描述符XFeat和我们的方法（采用语义条件，如图右上角所示）进行匹配的过程。正确匹配用绿色表示，错误匹配用红色表示。我们还可以通过使用语义或纹理特征，在图像中找到给定查询点（左下角红点）的128个最接近的匹配项，来评估描述符的可解释性和一致性。颜色越暖表示相似性越高。请注意，在水槽区域附近，使用条件特征后的相似性排名有所提升。

4. 主要贡献

本文的关键技术贡献是一种新颖的学习方法，用于将语义上下文整合到局部特征中，从而在匹配过程中实现高效的相似性搜索，并显著提高匹配准确性。实验结果表明，我们的方法在室内环境中的相机姿态估计和视觉定位任务中，显著提升了各种检测和描述技术的性能。

5. 方法

我们阐述了本研究方法的主要概念，详细说明了如何将语义感知添加到局部描述符中，以及为训练该描述符所设计的监督方法。整体训练和推理阶段的方案如图2所示。推荐课程：面向三维视觉的Linux 嵌入式系统教程[理论+代码+实战]。

所提策略首先提取两组描述符：一组是使用现成的局部特征方法获得的纹理特征，另一组是来自用于上下文信息的局部视觉模型（LVM）（如本文所选的DINOv2）。为此，我们采用了一种提取传统、以纹理为中心特征的基础方法，以及一种提取以语义为中心特征的基础方法。在基础提取之后，我们使用自注意力推理模块对特征进行细化。为了找到匹配的图像对，我们使用为每幅图像独立提取的两组纹理和语义特征，通过语义条件计算相似度矩阵，以找到相互匹配项。

在训练过程中，基础提取器的参数保持不变（冻结），我们仅优化初始投影和描述符推理的权重，如图2所示。我们冻结权重是因为每个基础提取器可能有更适合其的特定训练策略。通过使用冻结的、现成的提取器，我们可以容纳更多方法。DINOv2也根据[11]进行了冻结，该文献将其用作多个任务的骨干网络。

6. 实验结果

定量配准结果如表1和表2所示。表1中包含了双视图上下文聚合方法，如Light-Glue和LoFTR，以及其他也利用语义信息的描述符，如DeDoDe-G和SFD2。值得注意的是，即使仅进行单视图提取，SuperPoint与语义条件相结合也能与LightGlue（没有任何配对视图感知）相比产生具有竞争力的结果。表2描述了我们设计的利用语义信息提高现有描述符匹配能力的策略。我们可以注意到，当与我们所提出的语义条件相结合时，所有基线均取得了显著改进。尽管其中许多方法（如DeDoDe、SFD2、ALIKE和ALIKED）仅使用MegaDepth数据集中的室外图像进行训练，但在不重新训练特征提取器或DINOv2骨干网络的情况下，我们仍可将它们的室内位姿估计结果提高至少24%。这一结果表明，所提取的视觉线索本身并不优于这些描述符的原始版本，但通过语义信息的辅助，其条件得到了改善。

视觉定位基准测试结果如表3所示。一个有趣的观察结果是，我们的方法能够在多种情况下减少XFeat的错误。对于SuperPoint，我们的方法未能提供有意义的改进。我们推测，由于XFeat的骨干网络较小，它提供的特征更简洁、冗余更少，因此不易过拟合，且能最大程度地利用语义信息。在考虑不同阈值内定位相机的百分比时，我们实现了最高的正确定位相机平均百分比。从更严格的阈值（1◦、1厘米至500厘米、10◦）来看，LightGlue是黄金标准但匹配成本高昂，正确定位了66.97%的相机。紧随其后的是我们的方法（以SuperPoint为基础纹理检测器）：66.95%，SuperPoint：66.88%，XFeat：66.36%，DeDoDe-G：64.44%。这表明，语义信息可以增加模糊区域的对应点数量，如图3所示。

7. 总结 & 未来工作

本研究工作引入了一种基于学习的视觉特征描述技术，该技术能够利用图像中存在的语义线索。我们设计了一个执行信息聚合的网络，该网络利用语义特征来细化和调整现成的描述符，从而提高室内视觉匹配的准确性。在相机位姿估计方面，我们的方法性能优于现有的探索语义线索的最先进模型，并且即使与最近的学习匹配器（如LightGlue）相比也颇具竞争力，而我们仅使用单幅图像进行特征提取，并使用最近邻搜索进行匹配。通过大量实验，我们证明了我们的方法可以将六种不同基础描述符的位姿估计结果平均提高25%。改进后的描述符可以在大规模结构从运动恢复（SfM）重建中使用单视图进行图像提取，因为最近邻（MNN）匹配比数千对图像运行学习匹配器要快得多。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4779

浏览量
101097
相机

相机

+关注

关注
4

文章
1367

浏览量
53852
计算机视觉

计算机视觉

+关注

关注
8

文章
1700

浏览量
46095
视觉模型

视觉模型

+关注

关注
0

文章
7

浏览量
6928

原文标题：ACCV'24开源 | 完虐LightGlue！使用语义线索增强局部特征匹配！定位精度暴涨29%！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

基于OWL属性特征的语义检索研究

【来源】：《电子设计工程》2010年02期【摘要】：在文献检索中,概念的语义相似度计算直接影响查准率和查全率指标。将本体描述语言OWL(Web Ontology Language)的属性特征有机结合

发表于 04-24 09:48

一种基于SIFT描述子的特征匹配新算法

为了克服传统的局部特征匹配算法对噪声和图像灰度非线性变换敏感的不足，提出了基于SIFT（Scale Invariant Feature Transform）描述算子的特征

发表于 12-07 11:03 •29次下载

基于改进局部不变特征的兴趣点匹配

该文提出了一种适用于目标跟踪的局部特征点检测与匹配方法，在尺度不变特征(Scale Invariant FeatureTransform, SIFT)算法基础上进行了多方面的改进。在高

发表于 02-10 14:21 •21次下载

基于OWL属性特征的语义检索研究

在文献检索中，概念的语义相似度计算直接影响查准率和查全率指标。将本体描述语言OWL（Web Ontology Language）的属性特征有机结合到语义检索模型中，设计本体内实体间匹配

发表于 02-11 14:01 •4次下载

基于局部特征和整体特征融合的面部表情识别

提出融合局部特征和整体特征的方法实现人脸面部表情特征的提取。在每一个人脸图像上测量10个距离，把这些距离标准化后作为局部表情

发表于 06-22 15:24 •21次下载

基于局部特征匹配的目标跟踪研究

针对目标跟踪中的特征提取和匹配问题进行分析，提出了一种基于局部特征匹配的目标跟踪方法，该算法基于Shape Context进行

发表于 12-06 15:15 •32次下载

基于<b class='flag-5'>局部</b><b class='flag-5'>特征</b><b class='flag-5'>匹配</b>的目标跟踪研究

基于SVM的局部潜在语义分析算法研究

。该算法在语义分析使用矩阵的奇异值分解过程中引入不同类别信息，分析特征词的局部特征，使用支持向量机分类器计算文本对类别的相关度参数，并应用于局部

发表于 12-06 10:05 •0次下载

基于纹理特征匹配的快速目标分割方法

目标分割方法是工业自动化、在线产品检验、生产过程控制等领域的关键技术之一。基于特征匹配策略，研究了如何增强纹理特征的区分能力以及如何快速分割特定的目标。在纹理

发表于 12-07 16:48 •0次下载

基于行为特征的语义工作流修正算法

检索工作流．针对这种情况。提出了一种改进方案基于stream行为特征修正语义工作流．使用任务紧邻关系集表达stream的行为特征．对于检索语义工作流中的每个与变更请求不一致的strea

发表于 12-14 15:50 •0次下载

基于局部轮廓特征的类圆对象识别方法

之间的夹角、片段的长度和弯曲强度，定义2AS的语义模型；接着，依据2AS之间的相对位置关系定义2AS相互关系模型，分别描述对象的2AS特征和2AS之间的相互关系；然后，使用对象模板的2AS的语义模型与测试图像中的2AS

发表于 12-19 15:25 •1次下载

如何使用语义感知来进行图像美学质量评估的方法

当前图像美学质量评估的研究主要基于图像的视觉内容来给出评价结果，忽视了美感是人的认知活动的事实，在评价时没有考虑用户对图像语义信息的理解。为了解决这一问题，提出了一种基于语义感知的图像美学质量评估

发表于 11-16 15:37 •11次下载

RGPNET：复杂环境下实时通用语义分割网络

本文介绍的论文提出了一种新的实时通用语义分割体系结构RGPNet，在复杂环境下取得了显著的性能提升。作者： Tom Hardy首发：3D视觉工坊...

发表于 12-10 19:15 •693次阅读

借助局部实体特征的事件触发词抽取方法

建模。利用卷积神经网络（CNN）抽取局部特征的特性，从众多实体中定位有助于触发词识别的局部重要实体，采用注意力机制提高其权重，同时利用有效非核心实体的语义排除干扰实体，从而借助重要实体

发表于 05-26 15:24 •2次下载

深度学习—基于军事知识图谱的作战预案语义匹配方法研究

特征映射,构建预案语义特征标注,实现作战预案隐藏知识的显式定义;设计了作战预案语义特征抽取与相似性计算算法,解决基于索引或关键字等语用层次

发表于 11-11 11:08 •1783次阅读

基于RGM的鲁棒且通用的特征匹配

在一对图像中寻找匹配的像素是具有各种应用的基本计算机视觉任务。由于光流估计和局部特征匹配等不同任务的特定要求，以前的工作主要分为稠密匹配和稀

发表于 11-27 11:32 •585次阅读