0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

将高级语义信息隐式地嵌入到检测和描述过程中来提取全局可靠的特征

3D视觉工坊 来源:3D视觉工坊 2023-06-30 10:49 次阅读

介绍

以往的特征检测和匹配算法侧重于提取大量冗余的局部可靠特征,这样会导致效率和准确性有限,特别是在大规模环境中挑战性的场景,比如天气变化、季节变化、光照变化等等。

本文将高级语义信息隐式地嵌入到检测和描述过程中来提取全局可靠的特征,即他们设计了一个语义感知检测器,能够从可靠的区域(如建筑物、交通车道)检测关键点,并隐式地抑制不可靠的区域(如天空、汽车),而不是依赖于显式的语义标签。通过减少对外观变化敏感的特征数量,并避免加入额外的语义分割网络,提高了关键点匹配的准确性。此外,生成的描述符嵌入了语义信息后具有更强的鉴别能力,提供了更多的inliers

论文实验是在Aachen DayNight和RobotCar-Seasons数据集上进行的长时大规模视觉定位测试。

出发点

目前最先进效果最好的特征检测和描述算法都是基于学习的方法,由于有大量的训练数据,这些方法能够通过聚焦于有判别性的特征,即从更可靠的区域(如建筑物、交通车道)中提取关键点,但是训练中缺少语义信息,他们选择全局可靠的关键点的能力有限,如下图所示,他们更喜欢从物体中提取局部可靠的特征,包括那些对长时定位没有帮助的特征(如天空、树、汽车),这导致精度有限。

14df48c8-16d1-11ee-962d-dac502259ad0.png虽然也有方法融入过语义这些高层次信息,但它们需要额外的分割网络在测试时提供语义标签,并且很容易出现分割错误,本文则隐式地融入语义信息到检测和描述中去,以此提高匹配的性能,进而提升下游视觉定位的性能。

主要贡献

1.提出了一种新的特征网络,在训练时隐式地将语义融入到检测和描述过程中,使模型能够在测试时产生端到端的语义感知特征。

2.采用语义感知和特征感知相结合的引导策略来使得模型更有效地嵌入语义信息。

3.在长时定位任务上优于以往的局部特征,具有与先进匹配算法相当的精度和较高的效率。

Pipeline

157d3e52-16d1-11ee-962d-dac502259ad0.png

如上图所示,模型由一个编码器和两个解码器组成。一个编码器负责从图像中提取High level的特征,一个解码器预测可靠性图, 一个解码器产生描述符。

语义引导的特征检测:

特征检测器预测的可靠性图为,之前方法预测的可靠性图是由纹理的丰富度主导的。如下图所示,以往的方法只揭示了像素在局部层面的可靠性,缺乏全局层面的稳定性,本文通过考虑局部可靠性和全局稳定性来重新定义特征的可靠性。

159cf152-16d1-11ee-962d-dac502259ad0.png

其中局部可靠性这里用super-point预测的可靠性图,全局稳定性是根据像素所属的语义标签来确定其全局稳定性。具体来说,将ADE20k数据集中的120个语义标签按照它们随时间变化的方式分为四类,分别表示为Volatile、Dynamic、Short-term和Long-term。

165e996a-16d1-11ee-962d-dac502259ad0.png

Volatile(如天空、水)是不断变化的,对于定位来说是多余的。

Dynamic(如汽车、行人)每天都在移动,可能会因为引入错误的匹配而导致定位错误。

Short-term(如树)可以用于短期定位任务(如VO/SLAM),但它们对光照(低反照率)和季节条件的变化很敏感。

Long-term(如建筑、交通灯)不受上述变化的影响,是长时定位的理想对象。

而且他们没有直接过滤不稳定的特征,而是根据期望的抑制程度,根据经验分配的稳定性值对特征重新排序。其中,Long-term对象对于短期和长期定位都是鲁棒的,因此将其稳定性值设置为1.0,Short-term对于短期定位很有用,将其稳定性设置为0.5。Volatile和Dynamic类别的稳定性值被设置为0.1,因为它们对于短期/长期定位都没有用处。重新排序策略鼓励模型优先使用稳定的特征,当发现不稳定的关键点时,使用来自其他对象的关键点作为补偿,增加了模型对各种任务的鲁棒性(如特征匹配、短期定位)。

然后将局部可靠性图与全局稳定性图相乘得到全局可靠性图。

语义引导的特征描述:

通过在描述符中嵌入语义来增强它们的区分能力。与之前的描述符仅根据局部patch信息区分关键点不同的是,本文的描述符加强了同一类特征的相似性,同时保留了类内匹配的不相似性。但在训练过程中,这两种力量相互冲突,因为类间判别能力需要挤压同一类中描述符的空间,而类内判别能力需要增加空间。

为了解决这个问题,本文基于两种不同的度量设计里类间损失和类内损失。

类间损失:先通过最大化不同标签描述符之间的欧几里德距离来增强特征的语义一致性。这使得特征可以从具有相同标签的候选对象中找到对应,减少了搜索空间,从而提高了匹配的准确性。定义了基于三态损失的类间损失,该损失具有硬边距,用于将一批不同标签的所有可能的正负关键点分离开来。

16973c2a-16d1-11ee-962d-dac502259ad0.png

类内损失:为了确保类内损失不会与类间损失冲突,放宽了具有相同标签的描述符之间距离的限制。采用了软排序损失,而不是使用硬边的三重损失,通过优化正样本和负样本的排序而不是它们的距离。通过对所有样本的排序进行优化,而不是像带硬边缘的三态损失那样在正负对之间强制设置硬边界,软排序损失也保持了同一类对象上特征的多样性。

16a7c5cc-16d1-11ee-962d-dac502259ad0.png16c1206c-16d1-11ee-962d-dac502259ad0.png

最终的损失为:

172181b4-16d1-11ee-962d-dac502259ad0.png

实验

在Aachen (v1.0和v1.1)和RobotCar-Seasons数据集上测试了各种光照、季节和天气条件下的方法。

Aachen v1.0包含了在亚琛城市周围捕获的4328张参考图片和922张(824天,98夜)查询图片。

Aachen v1.1对v1.0进行了扩展,添加了2369张参考图片和93张夜间查询图片。

RobotCar-Seasons有26121个参考图像和11934个查询图像,由于郊区白天(雨、雪、黄昏、冬季)查询图像的条件多样,夜间查询图像的光照条件较差,因此具有一定的挑战性。

采用错误阈值(2◦,0.25m),(5◦,0.5m),(10◦,5m)的成功率作为度量。

baseline:

基线包括经典的方法(C),如AS v1.1、CSL和CPF以及使用语义的方法(S),如LLN、SMC、SSM、DASGIL、ToDayGAN和LBR。

还与学习的特征和稀疏/密集匹配器(M)进行了比较,例如,Superglue (SPG) , SGMNet , ClusterGNN和ASpanFormer , LoFTER , Patch2Pix , Dual-RCNet。

173707a0-16d1-11ee-962d-dac502259ad0.png176a3d3c-16d1-11ee-962d-dac502259ad0.png17a6bce4-16d1-11ee-962d-dac502259ad0.png

可以看出其方法在定位下游任务和最先进的方法表现持平或超过。

匹配定性结果:

17dd0c54-16d1-11ee-962d-dac502259ad0.png

运行时间比较:

18243598-16d1-11ee-962d-dac502259ad0.png

其方法可以说是又快又准了!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3638

    浏览量

    134426
  • 检测器
    +关注

    关注

    1

    文章

    863

    浏览量

    47676
  • 数据
    +关注

    关注

    8

    文章

    7002

    浏览量

    88940

原文标题:CVPR 2023 | 融入语义的特征检测和描述,更快更准!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于OWL属性特征语义检索研究

    【来源】:《电子设计工程》2010年02期【摘要】:在文献检索,概念的语义相似度计算直接影响查准率和查全率指标。本体描述语言OWL(Web Ontology Language)的属
    发表于 04-24 09:48

    模拟电路故障诊断特征提取方法

    实验确定,因此小波母函数、小波系数、小波网络结构及学习算法的优选问题都是亟待解决的问题。  基于故障信息量的特征提取  基于故障信息量的特征提取
    发表于 12-09 18:15

    序贯LSB写术的提取攻击

    序贯LSB写术在载体通过连续LSB替换嵌入消息,其提取攻击问题本质上是消息嵌入起止点的估计问题。该文建立针对序贯LSB
    发表于 04-08 08:41 20次下载

    蠕虫病毒特征码自动提取原理与设计

    目前网络入侵检测系统(NIDS)主要利用特征检测监测与阻止网络蠕虫,而蠕虫特征提取仍是效
    发表于 08-12 08:51 41次下载

    嵌入式系统重构过程中功能构件提取技术研究

    嵌入式系统重构过程中功能构件提取技术研究_刘铁铭
    发表于 01-07 18:56 0次下载

    基于TICA和GMM的视频语义概念检测算法

    ,通过TICA算法进行视频片段的特征提取,该特征提取算法能够学习视频片段复杂不变性特征;其次利用CMM方法对视频视觉特征进行建模,
    发表于 12-22 15:24 0次下载
    基于TICA和GMM的视频<b class='flag-5'>语义</b>概念<b class='flag-5'>检测</b>算法

    关于嵌入式系统的目标识别和具体特征识别技术详解

    计算机视觉的第一步是特征提取,即检测图像的关键点并获取有关这些关键点的有意义信息特征提取过程
    发表于 06-26 16:16 2484次阅读
    关于<b class='flag-5'>嵌入式</b>系统<b class='flag-5'>中</b>的目标识别和具体<b class='flag-5'>特征</b>识别技术详解

    如何提取检测视频的文字?数字视频中文字的检测提取技术的分析

    作为一种高级语义特征, 视频的文字信息对视频内容的理解、索引和检索具有重要意义。本文针对非压缩域中视频文字的
    发表于 09-17 17:58 26次下载
    如何<b class='flag-5'>提取</b>和<b class='flag-5'>检测</b>视频<b class='flag-5'>中</b>的文字?数字视频中文字的<b class='flag-5'>检测</b><b class='flag-5'>提取</b>技术的分析

    高斯过程变量模型及相关实践

    高斯过程变量模型(GPLⅴM)作为一种无监督的贝叶斯非参数降维模型,无法有效利用数据所包含的语义标记信息,同时其建模过程中假设观测变量的各
    发表于 03-11 16:01 8次下载

    结合双目图像的深度信息跨层次特征语义分割模型

    为改善单目图像语义分割网络对图像深度变化区域的分割效果,提出一种结合双目图像的深度信息和跨层次特征进行互补应用的语义分割模型。在不改变已有单目孪生网络结构的前提下,利用该模型分别
    发表于 03-19 14:35 21次下载
    结合双目图像的深度<b class='flag-5'>信息</b>跨层次<b class='flag-5'>特征</b>的<b class='flag-5'>语义</b>分割模型

    基于全局特征金字塔网络的信息融合方法

    特征不平衡问题是影响神经网络检测效率的关键因素。针对 Mask r-CNN特征不平衡问题,提出种基于全局
    发表于 03-24 14:51 13次下载
    基于<b class='flag-5'>全局</b><b class='flag-5'>特征</b>金字塔网络的<b class='flag-5'>信息</b>融合方法

    如何使用模型表示实现对称物体检测算法

    针对自然界具有旋转对称特征物体的不规则性和随机性特点,提出一种新的图像旋转目标检测算法。使用基于模型表示的方法
    发表于 03-29 14:26 11次下载

    结合显特征交互的融合模型

    特征工程是影响杋器茡习算法性能的关键因素之一,随着互联网数据规模的扩大,传统特征工程的人力成本不断増加。为减少对特征工程的依赖,构建一种结合显
    发表于 05-12 16:13 5次下载

    一种基于嵌入式特征提取的多标记分类算法

    基于单标记分类的降维及特征选择方法难以直接运用到多标记学习,而将多标记学习问题独立分解为多个单标记学习问题再进行降维会丢失标记的相关性信息。为此,提出一种基于嵌入式
    发表于 05-24 15:31 4次下载

    全局双边网络语义分割算法综述

    语义分割任务是对图像的物体按照类别进行像素级别的预测,其难点在于在保留足够空间信息的同时获取足够的上下文信息。为解决这一问题,文中提出了全局
    发表于 06-16 15:20 16次下载