如何实现更高效的VLN算法-电子发烧友网

视觉-语言导航任务（Vision-Language Navigation， VLN）是指在陌生环境中，无人系统依据语言指示和观测图像之间的跨模态匹配信息，进行自主智能路径导航的方法。不同于前进、后退等简单操控指令，VLN采用类似人人交互的语言指示，比如“走出右侧大门，穿过卧室和客厅，在绿色地毯上的餐桌旁停下”。VLN是一种新型的跨模态智能人机交互方法，能够极大地提升无人系统的自主能力，能够为无人系统走向实用提供关键技术支撑。

序列到序列（Sequence to Sequence， Seq2Seq）模型是VLN最常见的模型之一。Seq2Seq首先对语言指令进行序列编码，再根据逐步观测的视觉图像，进行序列移动方向预测解码，从而实现智能导航。最新的研究表明：在解码时，利用Beam-Search进行多条路径探索，通过路径评价函数获得最优导航路径，可以获得更好的导航精度。但现有工作使用的路径评价函数是由局部方向选择算子组合构建的，在全局多条路径对比上能力不足，可能会出现严重偏差，如图1。

图1 VLN分数偏差问题示例

为了解决该问题，军事科学院国防科技创新研究院智能人机交互团队设计了新型全局路径评估函数，提出了一种全局对比训练的策略，大幅提升了VLN的导航精度。相关论文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被国际知名期刊 IEEE Transactions on Neural Networks and Learning Systems录用；该论文在提交时，算法性能在公开VLN数据集R2R（Room-to-Room）上排名第一。

榜单地址：https://eval.ai/web/challenges/challenge-page/97/leaderboard/270

主要工作与贡献该论文提出了一种基于全局对比训练的视觉-语言导航方法，可以对候选路径进行跨模态全局匹配评估。不同于传统方法，该论文主要聚集在如何利用正确路径和错误路径进行对比训练，获得较优的全局语言-路径匹配评估函数，有效提升VLN的导航精度。论文算法框架可以分为两个部分：（1）Baseline：Seq2Seq模型，基于局部训练的序列动作预测，用于训练语言-路径匹配的局部评估函数；（2）全局对比训练模型：基于全局对比训练的全局评估函数。在测试时，将局部评估函数和全局评估函数进行结合，实现高精度的导航路径预测，如图2所示。

图2 基于全局对比训练的VLN框架

A Baseline 如图2所示，该论文选择Seq2Seq模型作为Baseline，首先将语言信息进行编码，再基于视觉信息进行动作预测解码。语言编码：利用LSTM对输入的自然语言文本进行编码，获得文本指令的特征向量。视觉编码：利用ResNet-152对观测图像进行特征提取，结合运动方向特征进行视觉编码。动作预测：采用Seq2Seq模型进行动作解码，获得序列导航动作。进度监视器：作为一项必不可少的辅助推理任务，进度监视器可以提供来自环境的额外训练信息。训练：局部对比训练，只考虑当前环境及下一步动作。局部评估函数：通过将局部方向选择概率值累加，获得整个路径与描述语言的匹配度。B 基于Beam-Search的全局对比训练策略

Baseline将一个路径的匹配度计算分解为单步方向选择得分累加，由于单步方向得分是单独计算的，没有明确涵盖全局信息，因此将Baseline评估函数称为局部评估函数。由于局部评估函数没有从全局视角考虑路径和语言的匹配度，所以局部得分累加的方式容易出现匹配错误，为了缓解这一问题，本文提出了明确的全局匹配评估函数，并设计了全局训练策略进行优化训练，从而获得高效的全局匹配评估函数。

具体来说，本文训练了一个全局评估子模型，主要用来进行路径-语言全局匹配评估，从而使得不同路径的评估得分更加具有可比性。

图3 深度多模态相似性模块和speaker模块示意图

DMSM模块：计算语言的整体描述特征与路径视觉的整体描述特征之间的距离；距离越近，则路径和语言越匹配。Speaker模块：根据路径反向生成指令语言的概率，是VLN的逆命题，可以反映全局路径和语言的匹配度。全局对比训练：在训练时，利用Beam-Search搜索出多条正确路径和多条错误路径，设计对比损失函数，使得正确路径得分高于错误路径，可以有效地对全局评估模块DMSM和Speaker模块进行训练。全局评估函数：在测试时，对于任意一对路径和语言，分别利用DMSM和Speaker模块对二者之间的匹配度进行计算，通过线性叠加，可以获得该路径的全局评估得分。

实验结果算法的测试是在VLN公开数据集上进行的。本文对比了多个现有经典VLN算法，实验结果表明，本文提出的算法导航精度比Baseline高出13%，显著度较高；在同期VLN算法的导航精度最高，证明了本文算法的有效性。