ImPosing：用于视觉定位的隐式姿态编码-电子发烧友网

主要内容：

提出了一种新的基于学习的用于车辆上的视觉定位算法，该算法可以在城市规模的环境中实时运行。

算法设计了隐式姿态编码，通过2个独立的神经网络将图像和相机姿态嵌入到一个共同的潜在表示中来计算每个图像-姿态对的相似性得分。通过以分层的方式在潜在空间来评估候选者，相机位置和方向不是直接回归的，而是逐渐细化的。算法占的存储量非常紧凑且与参考数据库大小无关。

Pipeline：

输入为查询图像

输出为查询图像的六自由度姿态（t，q）∈SE（3），t是平移向量，q是旋转四元数。

训练是在带有相机姿态label的数据库图像上进行训练，没有用额外的场景3D模型。

先通过图像编码器计算表示图像向量。然后通过评估分布在地图上的初始姿态候选来搜索相机姿态。姿态编码器对相机姿态进行处理以产生可以与图像向量相匹配的潜在表示，每个候选姿态都会有一个基于到相机姿态的距离的分数。高分提供了用于选择新候选者的粗略定位先验。通过多次重复这个过程使候选池收敛到实际的相机姿态。

论文技术点：

图像编码器：

使用图像编码器从输入的查询图像计算图像特征向量。

编码器架构包括一个预训练的CNN backbone，然后是全局平均池以及一个具有d个输出神经元的全连接层。

特征向量比图像检索中常用的全局图像描述符小一个数量级（使用d=256）以便在随后的步骤中将其与一大组姿态候选进行有效比较。

初始姿态候选：

起点是一组N个相机姿态，这是从参考姿态（=训练时相机姿态）中采样。通过这种初始选择为定位过程引入了先验，类似于选择锚点姿态。

姿态编码器：

姿态候选通过一个神经网络处理，输出潜在向量，这种隐式表示学习到了给定场景中的相机视点与图像编码器提供的特征向量之间的对应关系。

首先使用傅立叶特征将相机姿态的每个分量（tx，ty，tz，qx，qy，qz，qw）投影到更高维度：

，因为它有助于具有低维输入的网络拟合高频函数。然后使用具有4层256个神经元和隐藏层为ReLU激活的MLP。每一组候选姿态都是在一次batch的前向传递中计算出来的。

相似性分数：

为每个图像-姿态对计算余弦相似性来获得相似性得分s。

在点积之后添加一个ReLU层，使得s∈［0，1］。

直观地说，其目标是学习与实际相机姿态接近的候选姿态的高分。

有了这个公式后可以评估关于相机姿态的假设，并搜索得分高的姿态候选者。

相似性分数定义为：

建议新的候选姿态：

基于在上一次迭代中使用的姿态候选获得的分数，为这一次迭代选择新的姿态候选。

首先选择得分最高的B=100的姿态

然后从（hi）中以高斯混合模型的方式对新的候选者进行采样：

迭代姿态优化：

在每次迭代之后，将噪声向量除以2，使得新的候选者被采样为更接近先前的高分。

因此可以在千米级地图中收敛到精确的姿态估计，同时只评估有限的稀疏姿态集。在每个时间步长独立评估每个相机帧，但可以使用以前时间步长的定位先验来减少车辆导航场景中的迭代次数。

每次迭代时所选姿态的示例如图2所示。通过对初始姿态的N个候选进行采样，保留了一个恒定的记忆峰值。

姿态平均：

最终的相机姿态估计是256个得分较高的候选姿态的加权平均值，与直接选择得分最高的姿态相比，它具有更好的效果。使用分数作为加权系数，并实现3D旋转平均。

损失函数：

通过计算参考图像和以K种不同分辨率采样的姿态候选者之间的分数来训练网络，

其中，st是基于相机姿态和候选姿态之间的平移和旋转距离来定义。

实验：

与最近的方法在几个数据集上进行了比较，这些数据集涵盖了大规模室外环境中的各种自动驾驶场景。

由于户外环境的动态部分（移动物体、照明、遮挡等），这项任务极具挑战性。

验证了其算法能够在9个不同的大型室外场景中进行精确定位。

然后展示了算法可以扩展到多地图场景

Baseline：

将ImPosing与基于学习的方法进行比较。使用CoordiNet报告了牛津数据集上绝对姿态回归结果作为基线。

将ImPosing与检索进行比较，使用了NetVLAD和GeM，使用全尺寸图像来计算全局图像描述符，然后使用余弦相似度进行特征比较，然后对前20个数据库图像的姿态进行姿态平均。

没有使用基于结构的方法进行实验，因为使用3D模型进行几何推理，这些方法比更准确，但由于存储限制使得嵌入式部署变得困难。

在Oxford RobotCar和Daoxiang Lake数据集上的定位误差比较

Daoxiang Lake是一个比Oxford RobotCar更具挑战性的数据集，因为它的重复区域几乎没有判别特征，环境也多种多样（城市、城郊、高速公路、自然等）。因此，图像检索的性能比姿态回归差。ImPosing要准确得多，并且显示出比竞争对手小4倍的中值误差。

在4Seasons数据集上的比较：

4Seasons数据集包含慕尼黑地区在不同季节条件下的各种场景（城市、居民区、乡村）中记录的数据。

因为是针对车辆部署的视觉定位算法，比较了各种算法的性能效率：

论文的算法只需要在设备中存储神经网络权重和初始姿态候选，其中图像编码器为23MB，姿态编码器小于1MB，初始姿态候选为1MB。

在图3中报告了不同类别视觉定位方法的内存占用相对于参考数据库大小的缩放规律。这是有大量数据可用的自动驾驶场景中的一个重要方面。对于给定的地图，基于学习的方法具有恒定的内存需求，因为地图信息嵌入在网络权重中。

总结：

提出了一种新的视觉定位范式，通过使用地图的隐式表示，将相机姿态和图像特征连接在一个非常适合定位的潜在高维流形中。

证明了通过一个简单的姿态候选采样过程，能够估计图像的绝对姿态。

通过提供一种高效准确的基于图像的定位算法，该算法可以实时大规模操作，使其可以直接应用于自动驾驶系统。

但是方法的准确性在很大程度上取决于可用的训练数据的数量。而且与回归的方法类似，其不会泛化到远离训练示例的相机位置。

提出的方法可以在许多方面进行改进，包括探索更好的姿态编码器架构；找到一种隐式表示3D模型的方法，将隐式地图表示扩展到局部特征，而不是全局图像特征。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3679

浏览量
135396
神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101276
算法

算法

+关注

关注
23

文章
4633

浏览量
93473

原文标题：WACV 2023 | ImPosing：用于视觉定位的隐式姿态编码

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

动态环境中基于神经隐式表示的RGB-D SLAM

神经隐式表示已经被探索用于增强视觉SLAM掩码算法，特别是在提供高保真的密集地图方面。

发表于 01-17 10:39 •982次阅读

动态环境中基于神经<b class='flag-5'>隐</b><b class='flag-5'>式</b>表示的RGB-D SLAM

【芯灵思A83T试用申请】嵌入式视觉--远距离物体跟踪与定位

本帖最后由左岸cpx 于 2017-4-27 15:25 编辑项目名称：嵌入式视觉--远距离物体跟踪与定位试用计划1）烧录Linux系统在eMMC中，配置wifi ，蓝牙2）安装

发表于 04-27 14:18

嵌入式姿态测量系统的姿态参数怎么计算？

的研究和应用。然而，传统的姿态测量系统包括捷联式惯导普遍具有体积大，重量大，复杂程度高等特点，使得传统的姿态测量系统无法应用于日常应用。同时，传统的捷联惯导系统一般需要一个寻北系统的

发表于 08-22 07:27

基于三元Golay隐写码的快速隐写算法

研究GF(3)上的编码方法，利用三元Golay码给出一种GF(3)上的隐写码，其隐写性能较常见二元隐写码有显著提高。提出基于三元Golay隐

发表于 04-08 08:46 •26次下载

TPMS外置编码存储器式轮胎定位技术设计方案

TPMS外置编码存储器式轮胎定位技术设计方案 TPMS技术及轮胎定位原理　　汽车轮胎压力监测系统（TPMS）主要用于在汽车

发表于 03-11 15:17 •1081次阅读

TPMS外置<b class='flag-5'>编码</b>存储器<b class='flag-5'>式</b>轮胎<b class='flag-5'>定位</b>技术设计方案

面向AAV压缩域的通用隐写分析方法

基于帧间帧内多阶差分相关性的隐写分析子特征，结合AAC编码特性对子特征进行加权融合，得到用于通用隐写分析的特征集合，并采用随机森林组合分类器，实现了面向AAC MDCT系数修改的通用

发表于 12-23 11:32 •0次下载

网络编码姿态监控体域网的容错性

由加速度传感器构成的姿态监控体域网被广泛应用于医学、运动等领域，其需要具备较高的通信可靠性，因此，姿态监控体域网的容错性是需要解决的关键问题之一。网络编码的冗余可以作为一种非常有效的错

发表于 12-25 16:06 •0次下载

网络<b class='flag-5'>编码</b><b class='flag-5'>姿态</b>监控体域网的容错性

医疗器械视觉定位应用

中的典型应用之一。医疗器械视觉定位工作流程： 1、在生产线上安装视觉定位系统； 2、产品无序流入激光喷码机打印区域，进行步进式移动； 3、

发表于 05-22 15:08 •2347次阅读

关于3D视觉定位技术详细解析

3D视觉定位指的是根据事先构建的3D模型及相关信息，计算取得某张图像在拍摄时相机的位置和姿态。这是3D视觉的一项十分重要的技术，可以用来帮助实现人员

发表于 04-03 14:39 •9715次阅读

STM32操作增量式编码器（二）----使用编码器接口实现定位

上一个博文介绍了编码器实现测试，这也是编码器最普遍的应用，我们需要操作的东西并不多，通常来说记录脉冲数。STM32操作增量式编码器（一）----使用外部中断实现测速1.增量

发表于 12-08 16:36 •42次下载

机器视觉检测与机器视觉定位的区别与应用

机器视觉检测与机器视觉定位是两种重要的机器视觉应用技术，主要区别在于检测对象和应用领域不同。机器视觉检测技术可以

发表于 05-30 17:10 •1128次阅读

一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统

提出了一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统，该系统由完整的前端和后端模块组成，包括里程计、回环检测、子图融合和全局优化。

发表于 11-29 10:35 •683次阅读

一种将NeRFs应用于视觉定位任务的新方法

视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置，大致可以分为绝对姿态回归（APR），场景坐标回归（SCR）和分层方法（HM）。

发表于 10-28 10:03 •288次阅读

搜索历史

ImPosing：用于视觉定位的隐式姿态编码

评论

动态环境中基于神经隐式表示的RGB-D SLAM

基于嵌入式的视觉伺服循迹定位系统设计

【芯灵思A83T试用申请】嵌入式视觉--远距离物体跟踪与定位

嵌入式姿态测量系统的姿态参数怎么计算？

基于三元Golay隐写码的快速隐写算法

TPMS外置编码存储器式轮胎定位技术设计方案

基于人眼视觉特性的的嵌入式零树图像编码改进算法_刘敬

面向AAV压缩域的通用隐写分析方法

网络编码姿态监控体域网的容错性

医疗器械视觉定位应用

关于3D视觉定位技术详细解析

STM32操作增量式编码器（二）----使用编码器接口实现定位

机器视觉检测与机器视觉定位的区别与应用

一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统

一种将NeRFs应用于视觉定位任务的新方法