ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法-电子发烧友网

本文是 ICCV 2023 入选 Oral 论文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解读。本论文是某智能人机交互团队在视觉-语言导航（Vision-and-Language Navigation, VLN）领域的最新工作。该工作构建了 VLN 中首个带有高质量实体-标志物对齐标注的数据集，并提出实体-标志物对齐的自适应预训练方法，从而显著提高了智能体的导航性能。

ICCV 是“计算机视觉三大顶级会议”之一，ICCV 2023 于今年 10 月 2 日至 6 日在法国巴黎举行，本届会议共收到全球 8260 篇论文投稿，2161 篇被接收，接收率为 26.16%，其中 152 篇论文被选为口头报告展示（Oral Presentation），Oral 接收率仅为 1.8%。

论文题目：

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

论文地址：

https://arxiv.org/abs/2308.12587

开源数据集：

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代码地址：

https://github.com/csir1996/vln-gela

引言

视觉-语言导航（Vision-and-Language Navigation, VLN）任务旨在构建一种能够用自然语言与人类交流并在真实 3D 环境中自主导航的具身智能体。自提出以来，VLN 越来越受到计算机视觉、自然语言处理和机器人等领域的广泛关注。如图 1 所示，将自然语言指令中提过的标志物（物体或者场景）对应到环境中能够极大的帮助智能体理解环境和指令，由此跨模态对齐是 VLN 中的关键步骤。然而，大多数可用的数据集只能提供粗粒度的文本-图像对齐信号，比如整条指令与整条轨迹的对应或者子指令与子路径之间的对应，而跨模态对齐监督也都停留在句子级别（sentence-level）。因此，VLN 需要更细粒度（entity-level）的跨模态对齐数据和监督方法以促进智能体更准确地导航。

为解决以上问题，我们提出了一种面向 VLN 的实体-标志物自适应预训练方法，主要工作与贡献如下：

1. 我们基于 Room-to-Room（R2R）数据集 [1] 标注实体-标志物对齐，构建了第一个带有高质量实体-标志物对齐标注的 VLN 数据集，命名为 GEL-R2R；

2. 我们提出一种实体-标志物自适应预训练 (Grounded Entity-Landmark Adaptive，GELA) 方法，利用 GEL-R2R 数据集显式监督 VLN 模型学习实体名词和环境标志物之间的细粒度跨模态对齐；

3. 我们构建的 GELA 模型在两个 VLN 下游任务上取得了最佳的导航性能，证明了我们数据集和方法的有效性和泛化性。

▲图1. 具身智能体在3D真实环境中的导航示例

GEL-R2R数据集

为了建立指令中实体短语与其周围环境中相应标志物之间的对齐，我们在 R2R 数据集的基础上进行了实体-标志物对齐的人工标注，整个流程包括五个阶段：

1. 原始数据准备。我们从 Matterport3D 模拟器中采集每个可导航点的全景图。为了提高标注的效率和准确性，我们在全景图中标注下一个动作方向，并根据 FG-R2R 数据集 [2] 将每个全景图与相应的子指令进行对应；

2. 标注工具开发。我们基于 Label-Studio 开发了一个跨模态标注平台，如图 2 所示；

3. 标注指南建立。为确保标注的一致性，我们经过预标注之后建立了四个准则来标准化标注指南：

对齐准则：指令中的实体短语应与全景图中的标志物准确匹配
自由文本准则：标注自由文本而不是类别
文本共指准则：指代相同标志物的实体短语用相同的标签标注
唯一标志物准则：对于一个实体短语，在全景图中只应标注一个对应的标志物

4. 数据标注与修订；

5. 数据整合与处理。

▲图2. GEL-R2R数据集标注界面如图 3 所示，GEL-R2R 数据集共包含：71467 个实体短语，其中训练集 57788 个，已见环境验证集 4196 个，未见环境验证集 9483 个；150183 个标志物，其中训练集 121146 个，已见环境验证集 8741 个，未见环境验证集 20296 个。

▲图3. GEL-R2R数据集统计分析

GELA方法

▲图4. GELA方法概览

如图 4 所示，方法流程分为三个阶段：预训练（pre-training）、自适应预训练（adaptive pre-training）和微调（fine-tuning）。我们直接在预训练模型 HAMT [3] 的基础上进行自适应预训练，HAMT 模型由文本编码器、图像编码器、历史编码器和跨模态编码器构成。我们将跨模态编码器输出的文本向量、历史向量和图像向量分别记为 Z、Y 和 S。我们设计了三种自适应预训练任务：

1. 实体短语预测。在这个任务中，我们通过标注的环境标志物预测其对应的实体短语在指令中的位置。首先将人工标注的实体位置转化为 L+1 维的掩码向量（与维度相同），并将人工标注的标志物边界框转化为 37 维的掩码向量（与维度相同）。然后，我们将标志物图像 patch 的特征平均化，并将其输入一个两层前馈网络（Feedforward Network, FFN）中，预测指令序列中 token 位置的概率分布，用掩码向量作监督，具体损失函数为：

2. 标志物边界框预测。在这个任务中，我们通过标注的实体名词预测其对应的标志物边界框坐标。首先平均实体短语 token 的特征向量，然后将其输入两层 FFN 和 Sigmoid 函数预测坐标：

最后，将人工标注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 损失和 GIoU 损失：

3. 实体-标志物语义对齐。上述两个单向预测任务使用位置信息来匹配实体和标志物，而此任务在跨模态编码器输出端强制对齐相对应的标志物和实体的特征向量。这个任务的约束比上面两个单向预测任务更强，因为它直接作用于表示，而不是仅仅基于位置信息。具体损失函数如下：

自适应预训练最终的损失函数为：

经过自适应预训练后，我们利用模仿学习 (Imitation Learning，IL) 和强化学习 (Reinforcement Learning，RL) 训练策略对 GELA 模型在两个 VLN 下游任务（R2R 和 CVDN）上进行微调。IL 监督智能体克隆专家的行为，RL 鼓励智能体根据学习策略探索轨迹。

实验结果

如图 5 所示，GELA 模型在 R2R 数据集上与先前 SOTA 模型的性能进行比较。GELA 模型在所有子集上的主要指标（SR 和 SPL）均优于所有其他模型。具体地，在已知验证集上，GELA 的性能与 HAMT 模型相当，而在未知验证集和测试集上，GELA 模型分别取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此，GELA 模型具有更好的未知环境泛化能力，这主要是由于 GELA 模型在学习实体-标志物对齐后，具有较强的语义特征捕捉能力。

▲ 图5. R2R数据集上的性能对比我们同样在 CVDN 数据集上对比了 GELA 模型与先前 SOTA 模型的性能，如图 6 所示，该数据集使用以米为单位的目标进度 (Goal Progress，GP) 作为关键性能指标。结果表明，GELA 模型在验证集和测试集上的性能都明显优于其他模型。因此，GELA 模型对不同的 VLN 下游任务具有良好的泛化能力。

▲图6. CVDN数据集上的性能对比

参考文献

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ̈ underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

原文标题：ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2909

文章
44665

浏览量
373556

原文标题：ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

模型展示了强大的泛化能力，能够将在模拟环境学到的技能迁移到真实场景。RT-2的改进版本更是引入了视觉-语言预训练技术，使模型能够理解更抽象的任务描述。第8章通过具体应用案例展现了具身

发表于 12-24 15:03

基于视觉语言模型的导航框架VLMnav

本文提出了一种将视觉语言模型（VLM）转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离，而是使用VLM在一步中直接选择动作。惊讶的是，我们发现VLM可以作为一种无需任何微调或

发表于 11-22 09:42 •170次阅读

ai大模型训练方法有哪些？

AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法：数据预处理和增强数据清洗：去除噪声和不完整的数据。数据标准化：将数据缩放到统一的范围。数据增强：通过旋转、缩放、裁剪等

发表于 07-16 10:11 •1512次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使模型学习到语言的通用知识

发表于 07-11 10:11 •435次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预训练

发表于 07-10 11:03 •1080次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。

发表于 07-03 18:20 •2864次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

语义学习的起点是研究如何将词转化为向量表示，这一直是自然语言处理领域的研究热点。词表示方法主要分为三种：词的独热表示、词的分布式表示和基于预训练的词嵌入表示。词的独热表示：构建包含

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

的复杂模式和长距离依赖关系。预训练策略: 预训练是LLMs训练过程的第一阶段，模型在大量的文本数据上学习

发表于 05-05 10:56

利用液滴纳米孔传感平台，实现单分子水平上皮克级生物标志物的灵敏检测

生物标志物存在于各种新陈代谢过程中，需要在单分子水平上进行精确细致的分析，以进行准确的临床诊断。

发表于 04-23 11:38 •674次阅读

基于DNA树突状探针的微流控免疫传感平台，用于过敏原标志物的高灵敏检测

过敏原特异性IgE（sIgE）是过敏原筛选和诊断中重要的过敏原标志物之一。近年来，食物过敏已成为一个全球性的健康问题。

发表于 04-22 14:56 •658次阅读

什么是自适应光学？自适应光学原理与方法的发展

目前，世界上大型的望远镜系统都采用了自适应光学技术，自适应光学的出现为补偿动态波前扰动，提高光波质量提供了新的研究方向。 60多年来，自适应光学技术获得蓬勃发展，现已应用于天文学、空间光学、激光、生物医学等领域。

发表于 03-11 10:27 •2090次阅读

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅拥有BERT的优势，而且在效率上更胜一筹。

发表于 02-29 17:37 •793次阅读

混合专家模型 (MoE)核心组件和训练方法介绍

) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中，我们将深入探讨 MoEs 的核心组件、训练方法，以及在推理过程中需要考量的各种因素。让我们开始吧！简短总结混合专家模型 (MoEs

发表于 01-13 09:37 •1261次阅读

Versal自适应SoC系统集成和确认方法指南

电子发烧友网站提供《Versal自适应SoC系统集成和确认方法指南.pdf》资料免费下载

发表于 01-03 10:48 •0次下载

搜索历史

ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

论文题目：

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

论文地址：

开源数据集：

代码地址：

https://github.com/csir1996/vln-gela

评论

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

基于视觉语言模型的导航框架VLMnav

ai大模型训练方法有哪些？

大语言模型的预训练

LLM预训练的基本概念、基本原理和主要优势

预训练模型的基本原理和应用

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述

利用液滴纳米孔传感平台，实现单分子水平上皮克级生物标志物的灵敏检测

基于DNA树突状探针的微流控免疫传感平台，用于过敏原标志物的高灵敏检测

什么是自适应光学？自适应光学原理与方法的发展

谷歌模型训练软件有哪些功能和作用

混合专家模型 (MoE)核心组件和训练方法介绍

Versal自适应SoC系统集成和确认方法指南