TransGeo：第一种用于交叉视图图像地理定位的纯Transformer方法-电子发烧友网

主要内容：

提出了第一种用于交叉视图图像地理定位的纯Transformer方法，在对齐和未对齐的数据集上都实现了最先进的结果，与基于CNN的方法相比，计算成本更低，所提出的方法不依赖于极坐标变换和数据增强，具有通用性和灵活性。

论文出发点：

基于CNN的交叉视图图像地理定位主要依赖于极坐标变换，无法对全局相关性进行建模，为了解决这些限制，论文提出的算法利用Transformer在全局信息建模和显式位置信息编码方面的优势，还进一步利用Transformer输入的灵活性，提出了一种注意力引导的非均匀裁剪方法去除无信息的图像块，性能下降可以忽略不计，从而降低了计算成本，节省下来的计算可以重新分配来提高信息patch的分辨率，从而在不增加额外计算成本的情况下提高性能。

这种“关注并放大”策略与观察图像时的人类行为高度相似。

图像地理定位（名词解释）：

基于图像的地理定位旨在通过检索GPS标记的参考数据库中最相似的图像来确定查询图像的位置，其应用在大城市环境中改善具有大的噪声GPS和导航，在Transformer出现之前，通常使用度量学习损失来训练双通道CNN框架，但是这样交叉视图检索系统在街道视图和鸟瞰视图之间存在很大的领域差距，因为CNN不能明确编码每个视图的位置信息，之后为了改善域间隙，算法在鸟瞰图像上应用预定义的极坐标变换，变换后的航空图像具有与街景查询图像相似的几何布局，然而极坐标变换依赖于与两个视图相对应的几何体的先验知识，并且当街道查询在空间上未在航空图像的中心对齐时，极坐标转换可能会失败。

Contribution：

提出了第一种基于Transformer的方法用于交叉视图图像地理定位，无需依赖极坐标变换或数据增强。

提出了一种注意力引导的非均匀裁剪策略，去除参考航空图像中的大量非信息补丁以减少计算量，性能下降可忽略不计，通过将省下来的计算资源重新分配到信息patch的更高图像分辨率进一步提高了性能。

与基于CNN的方法相比，在数据集上的最先进性能具有更低的计算成本、GPU内存消耗和推理时间。

网络架构：

Patch Embedding：

Class Token：

最后一层输出的类token被送到一个MLP头以生成最终的分类向量，使用最终输出向量作为嵌入特征，并使用上面说的损失对其进行训练。

可学习的位置嵌入：

位置嵌入被添加到每个token以保持位置信息，采用了可学习的位置嵌入，这是包括class token在内的所有（N+1）token的可学习矩阵，可学习的位置嵌入使双通道Transformer能够学习每个视图的最佳位置编码，而无需任何关于几何对应的先验知识，因此比基于CNN的方法更通用和灵活。

多头注意力：

Transformer编码器内部架构是L个级联的基本Transformer，关键组成部分是多头注意力块，它首先使用三个可学习的线性投影将输入转换为查询、键和值，表示为Q、K、V，维度为D，然后将注意力输出计算为

，一个k-head注意力块用k个不同的head对Q、k、V进行线性投影，然后对所有k个head并行执行attention，输出被连接并投影回模型维度D，多头注意力可以模拟从第一层开始的任意两个标记之间的强全局相关性，这在CNN中是不可能学习的，因为卷积的接受域有限。

Attention引导的非均匀裁剪：

当寻找图像匹配的线索时，人类通常会第一眼找到最重要的区域，然后只关注重要的区域并放大以找到高分辨率的更多细节，把“关注并放大”的思想用在交叉图像地理定位中可能更有益，因为两个视图只共享少量可见区域，一个视图中的大量区域，例如鸟瞰图中的高楼屋顶，在另一个视图可能看不见，这些区域对最终相似性的贡献微不足道，可以去除这些区域以减少计算和存储成本，然而重要的区域通常分散在图像上，因此CNN中的均匀裁剪不能去除分散的区域，因此提出了注意力引导的非均匀裁剪

在鸟瞰分支的最后一个transformer编码器中使用注意力图，它代表了每个token对最终输出的贡献，由于只有class token对应的输出与MLP head连接，因此选择class token与所有其他patch token之间的相关性作为注意力图，并将其重塑为原始图像形状。

模型优化：

为了在没有数据增强的情况下训练Transformer模型，采用了正则化/泛化技术ASAM。在优化损失时使用ASAM来最小化损失landscape的自适应锐度使得该模型以平滑的损失曲率收敛以实现强大的泛化能力。

通过同时最小化的损失和自适应锐度，能够在不使用任何数据增强的情况下克服过拟合问题

实验：

在两个城市规模的数据集上进行了实验，即CVUSA和VIGOR，分别代表了空间对齐和非对齐设置

评估度量：在top-k召回准确率，表示为“R@k”，基于每个查询的余弦相似度检索嵌入空间中的k个最近参考邻居，如果地面真实参考图像出现在前k个检索图像中，则认为其正确。

预测GPS位置和地面真实GPS位置之间的真实世界距离作为VIGOR数据集上的米级别的评估。

命中率，即覆盖查询图像（包括地面真相）的前1个检索参考图像的百分比

和之前SOTA方法SAFA在计算代价上的比较

总结：

提出了第一种用于交叉视图图像地理定位的纯Transformer方法，在对齐和未对齐的数据集上都实现了最先进的结果，与基于CNN的方法相比，计算成本更低。

缺点是使用两个管道，且patch选择简单地使用不可通过参数学习的注意力图。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1084

浏览量
40451
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24690
cnn

cnn

+关注

关注
3

文章
352

浏览量
22204

原文标题：CVPR 2022 | TransGeo：第一种用于交叉视图图像地理定位的纯Transformer方法

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

全球地理定位技术的发展历程

根据 Google 提供的数据，目前有 5,465 颗卫星在环绕地球轨道运行，其中有 154 颗卫星主要用于导航。

发表于 12-16 11:37 •213次阅读

如何使用图像采集卡

频图像进行处理和存储。本文旨在详细探讨图像采集卡的定义、功能、安装和使用方法，以帮助读者更好地理解和利用这一设备。

发表于 12-13 15:03 •106次阅读

自动驾驶中一直说的BEV+Transformer到底是个啥？

（Bird’s Eye View）+Transformer”是两个方向的技术，BEV是一种全新的3D坐标系，而Transformer则是一种深度学习神经网络模型，BEV+

发表于 11-07 11:19 •368次阅读

自动驾驶中<b class='flag-5'>一</b>直说的BEV+<b class='flag-5'>Transformer</b>到底是个啥？

SegVG视觉定位方法的各个组件

视觉定位(Visual Grounding)旨在基于自由形式的自然语言文本表达定位图像中的目标物体。随着多模态推理系统的普及，如视觉问答和图像描述，视觉定位的重要性愈加凸显。已有的研

发表于 10-28 13:59 •413次阅读

SegVG视觉<b class='flag-5'>定位</b><b class='flag-5'>方法</b>的各个组件

一种将NeRFs应用于视觉定位任务的新方法

视觉定位旨在估计在已知环境中捕获的给定图像的旋转和位置，大致可以分为绝对姿态回归（APR），场景坐标回归（SCR）和分层方法（HM）。

发表于 10-28 10:03 •194次阅读

<b class='flag-5'>一种</b>将NeRFs应<b class='flag-5'>用于</b>视觉<b class='flag-5'>定位</b>任务的新<b class='flag-5'>方法</b>

一种半动态环境中的定位方法

和终身定位方法，以识别非静态环境中的半动态物体，并提出了一个通用框架，将主流物体检测算法与建图和定位算法集成在一起。建图

发表于 09-30 14:40 •258次阅读

<b class='flag-5'>一种</b>半动态环境中的<b class='flag-5'>定位</b><b class='flag-5'>方法</b>

一种无透镜成像的新方法

透镜成像形式，它使用扫描光束收集散射光进行图像重建，面临着周期性样品的挑战。为了研究微电子或光子元件中的纳米级图案，一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。这在波长短于紫外线时尤为重要，其成像空间分辨率高于

发表于 07-19 06:20 •374次阅读

<b class='flag-5'>一种</b>无透镜成像的新<b class='flag-5'>方法</b>

机器学习中的交叉验证方法

在机器学习中，交叉验证（Cross-Validation）是一种重要的评估方法，它通过将数据集分割成多个部分来评估模型的性能，从而避免过拟合或欠拟合问题，并帮助选择最优的超参数。本文将详细探讨几种

发表于 07-10 16:08 •1099次阅读

机器人视觉技术中常见的图像分割方法

、场景理解、导航和交互等任务至关重要。以下是一些常见的图像分割方法：阈值分割法（Thresholding）阈值分割法是一种基于像素强度的简单图像

发表于 07-09 09:31 •662次阅读

地下金属电缆故障定位仪的管线探测方法——每日了解电力知识

法和夹钳法三种信号施加模式，适合不同场合需要。 2、接收机功能: 用于对地下电缆的位置、走向、埋深及电流测量。 3、左右定位箭头指示目标管线位置，定位快速、精确；前后箭头和dB值指示

发表于 07-08 09:04 •681次阅读

为什么UWB定位技术适用于室内定位？

UWB室内人员定位原理 UWB室内人员定位技术只是属于无线定位技术的一种。流行的无线定位技术包括GPS定

发表于 06-19 17:10 •693次阅读

交叉导轨维护和保养的方法

交叉导轨系统作为一种常见的机械传动装置，广泛应用于各种精密机械设备中。为了确保交叉导轨系统的正常运行和延长其使用寿命，定期维护和保养是至关重要的。

发表于 05-05 17:48 •431次阅读

3种双控开关的接线方法

详尽、详实、细致地介绍三种常见的双控开关的接线方法。 第一种接线方法是直连法。直连法是最简单的双控开关接线方法，适

发表于 02-05 13:46 •5449次阅读

什么是gps定位? gps定位放线的步骤有哪些

用户的位置，从而实现定位。 GPS定位放线是一种使用GPS技术进行精确测量和放线的方法。它常用于建筑工程、土地测量、地貌调查和

发表于 01-22 15:48 •6592次阅读

bds是什么地理技术 BDS与GPS的区别

导航系统。虽然BDS和GPS都是用于地理定位和导航的技术，但它们在很多方面存在着差异。 BDS（北斗导航卫星系统）是中国自主研发的一种全球卫星导航系统，旨在提供全球范围内的高精度定位和

发表于 01-19 10:11 •2.1w次阅读

搜索历史

TransGeo：第一种用于交叉视图图像地理定位的纯Transformer方法

评论

全球地理定位技术的发展历程

如何使用图像采集卡

自动驾驶中一直说的BEV+Transformer到底是个啥？

SegVG视觉定位方法的各个组件

一种将NeRFs应用于视觉定位任务的新方法

一种半动态环境中的定位方法

一种无透镜成像的新方法

机器学习中的交叉验证方法

机器人视觉技术中常见的图像分割方法

地下金属电缆故障定位仪的管线探测方法——每日了解电力知识

为什么UWB定位技术适用于室内定位？

交叉导轨维护和保养的方法

3种双控开关的接线方法

什么是gps定位? gps定位放线的步骤有哪些

bds是什么地理技术 BDS与GPS的区别