0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何实现更高效的VLN算法

深度学习自然语言处理 来源:CAAI认知系统与信息处理专 作者:CAAI认知系统与信息 2022-07-13 14:54 次阅读

视觉-语言导航任务(Vision-Language Navigation, VLN)是指在陌生环境中,无人系统依据语言指示和观测图像之间的跨模态匹配信息,进行自主智能路径导航的方法。不同于前进、后退等简单操控指令,VLN采用类似人人交互的语言指示,比如“走出右侧大门,穿过卧室和客厅,在绿色地毯上的餐桌旁停下”。VLN是一种新型的跨模态智能人机交互方法,能够极大地提升无人系统的自主能力,能够为无人系统走向实用提供关键技术支撑。

序列到序列(Sequence to Sequence, Seq2Seq)模型是VLN最常见的模型之一。Seq2Seq首先对语言指令进行序列编码,再根据逐步观测的视觉图像,进行序列移动方向预测解码,从而实现智能导航。最新的研究表明:在解码时,利用Beam-Search进行多条路径探索,通过路径评价函数获得最优导航路径,可以获得更好的导航精度。但现有工作使用的路径评价函数是由局部方向选择算子组合构建的,在全局多条路径对比上能力不足,可能会出现严重偏差,如图1。

d1536476-01c9-11ed-ba43-dac502259ad0.png

图1 VLN分数偏差问题示例

为了解决该问题,军事科学院国防科技创新研究院智能人机交互团队设计了新型全局路径评估函数,提出了一种全局对比训练的策略,大幅提升了VLN的导航精度。相关论文《Vision-Language Navigation with Beam-Constrained Global Normalization》已被国际知名期刊 IEEE Transactions on Neural Networks and Learning Systems录用;该论文在提交时,算法性能在公开VLN数据集R2R(Room-to-Room)上排名第一。

d16cc222-01c9-11ed-ba43-dac502259ad0.jpg

榜单地址:https://eval.ai/web/challenges/challenge-page/97/leaderboard/270

主要工作与贡献该论文提出了一种基于全局对比训练的视觉-语言导航方法,可以对候选路径进行跨模态全局匹配评估。不同于传统方法,该论文主要聚集在如何利用正确路径和错误路径进行对比训练,获得较优的全局语言-路径匹配评估函数,有效提升VLN的导航精度。论文算法框架可以分为两个部分:(1)Baseline:Seq2Seq模型,基于局部训练的序列动作预测,用于训练语言-路径匹配的局部评估函数;(2)全局对比训练模型:基于全局对比训练的全局评估函数。在测试时,将局部评估函数和全局评估函数进行结合,实现高精度的导航路径预测,如图2所示。

d1a03f94-01c9-11ed-ba43-dac502259ad0.png

图2 基于全局对比训练的VLN框架

A Baseline 如图2所示,该论文选择Seq2Seq模型作为Baseline,首先将语言信息进行编码,再基于视觉信息进行动作预测解码。语言编码:利用LSTM对输入的自然语言文本进行编码,获得文本指令的特征向量。视觉编码:利用ResNet-152对观测图像进行特征提取,结合运动方向特征进行视觉编码。动作预测:采用Seq2Seq模型进行动作解码,获得序列导航动作。进度监视器:作为一项必不可少的辅助推理任务,进度监视器可以提供来自环境的额外训练信息。训练:局部对比训练,只考虑当前环境及下一步动作。局部评估函数:通过将局部方向选择概率值累加,获得整个路径与描述语言的匹配度。B 基于Beam-Search的全局对比训练策略

Baseline将一个路径的匹配度计算分解为单步方向选择得分累加,由于单步方向得分是单独计算的,没有明确涵盖全局信息,因此将Baseline评估函数称为局部评估函数。由于局部评估函数没有从全局视角考虑路径和语言的匹配度,所以局部得分累加的方式容易出现匹配错误,为了缓解这一问题,本文提出了明确的全局匹配评估函数,并设计了全局训练策略进行优化训练,从而获得高效的全局匹配评估函数。

具体来说,本文训练了一个全局评估子模型,主要用来进行路径-语言全局匹配评估,从而使得不同路径的评估得分更加具有可比性。

d1b792b6-01c9-11ed-ba43-dac502259ad0.png

图3 深度多模态相似性模块和speaker模块示意图

DMSM模块:计算语言的整体描述特征与路径视觉的整体描述特征之间的距离;距离越近,则路径和语言越匹配。Speaker模块:根据路径反向生成指令语言的概率,是VLN的逆命题,可以反映全局路径和语言的匹配度。全局对比训练:在训练时,利用Beam-Search搜索出多条正确路径和多条错误路径,设计对比损失函数,使得正确路径得分高于错误路径,可以有效地对全局评估模块DMSM和Speaker模块进行训练。全局评估函数:在测试时,对于任意一对路径和语言,分别利用DMSM和Speaker模块对二者之间的匹配度进行计算,通过线性叠加,可以获得该路径的全局评估得分。

实验结果算法的测试是在VLN公开数据集上进行的。本文对比了多个现有经典VLN算法,实验结果表明,本文提出的算法导航精度比Baseline高出13%,显著度较高;在同期VLN算法的导航精度最高,证明了本文算法的有效性。

d1cca2fa-01c9-11ed-ba43-dac502259ad0.png

总结与展望本研究提出了一种 VLN 全局对比训练方法,用于缓解现有局部评估函数在全局路径-语言匹配评估方面的不足。该方法核心要点是如何从错误路径/负样本中学到有用的信息,这是现有其他VLN算法关注较少的地方,也是本文的落脚点,实验结果表明了本文方法的有效性。

最近,通过视觉-语言跨模态预训练模型在VLN中性能表现优越,比如VLN BERT,相对于传统LSTM模型,预训练能够获得更多的先验知识,能够为VLN提供更鲁棒的基础框架,本文未来工作将在VLN BERT等预训练模型的基础上,进一步利用全局对比训练方法,实现更高效的VLN算法。

原文标题:VLN: 基于全局对比训练的视觉-语言导航方法

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能导航
    +关注

    关注

    0

    文章

    23

    浏览量

    9947
  • 函数
    +关注

    关注

    3

    文章

    4326

    浏览量

    62555
  • 训练模型
    +关注

    关注

    1

    文章

    36

    浏览量

    3810

原文标题:VLN: 基于全局对比训练的视觉-语言导航方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+内容简介

    内容简介这是一本深入解读基础算法及其电路设计,以打通算法研发到数字IC设计的实现屏障,以及指导芯片设计工程师从底层掌握复杂电路设计与优化方法为目标的专业技术书。任何芯片(如WiFi芯片、5G芯片
    发表于 11-21 17:14

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+一本介绍基础硬件算法模块实现的好书

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块,本书的内容比较对本人胃口。 我们先来
    发表于 11-20 13:42

    盛显科技:拼接处理器如何实现高效数据拼接操作?

    推动各行各业数字化转型与提升用户体验的关键力量。那么您知道拼接处理器如何实现高效数据拼接操作?下面盛显科技小编为您介绍: 拼接处理器实现高效数据拼接操作,主要可以通过以下几个方面来达成
    的头像 发表于 10-23 10:58 224次阅读
    盛显科技:拼接处理器如何<b class='flag-5'>实现</b><b class='flag-5'>高效</b>数据拼接操作?

    使用qboot时选择了压缩率更高的zip算法,但是发现编译报错,为什么?

    在使用qboot时选择了压缩率更高的zip算法,但是发现编译报错,如下图:
    发表于 09-26 07:22

    智能升级,楼宇自控系统让办公更高效

    智能升级,楼宇自控系统让办公更高效 在快节奏的现代都市生活中,办公效率成为了企业竞争力的关键因素之一。随着科技的飞速发展,楼宇自控系统作为智能建筑的核心技术,正逐步渗透到我们的办公环境中,以其独特
    的头像 发表于 09-19 14:12 250次阅读

    GaN如何实现更高效、更紧凑的电源

    电子发烧友网站提供《GaN如何实现更高效、更紧凑的电源.pdf》资料免费下载
    发表于 09-12 10:00 0次下载
    GaN如何<b class='flag-5'>实现</b><b class='flag-5'>更高效</b>、更紧凑的电源

    充电也要算法?储能充电芯片中的算法处理器

    或充电设备中,负责实时监控电池状态,执行充电策略,并调整充电参数,如电流和电压。   比如算法处理器可以执行复杂的充电算法,如恒流/恒压充电、脉冲充电、智能协商充电等,这些算法能够根据电池的状态调整充电参数,
    的头像 发表于 07-30 00:07 3680次阅读

    如何使用PyTorch构建更高效的人工智能

    术界和工业界得到了广泛应用。本文将深入探讨如何使用PyTorch构建更高效的人工智能系统,从框架基础、模型训练、实战应用等多个方面进行详细解析。
    的头像 发表于 07-02 13:12 371次阅读

    STM32如何诠释电机控制创新 如何更高效更智能

    为了提高电机系统的效率,电机控制技术大有可为。通过采用性能更高、集成度更高的半导体器件,功能强大且安全的微控制器,更智能的传感器,结合更优化的软件算法,可实现提升效率、降低损耗的目的。
    发表于 06-06 10:44 755次阅读
    STM32如何诠释电机控制创新 如何<b class='flag-5'>更高效</b>更智能

    笙泉、呈功携手推出FOC智能型调机系统,实现高效开发马达控制产品

    本帖最后由 noctor 于 2024-6-3 14:45 编辑 笙泉、呈功携手推出FOC智能型调机系统,实现高效开发马达控制产品 FOC智能型调机系统笙泉科技 近几年持续致力于开发
    发表于 06-03 11:58

    FPGA能实现什么样的算法

    FPGA功能如此强大,请问用FPGA能实现或者比较适合实现什么样的算法
    发表于 05-26 20:18

    深圳特信电子|车载车库GPS信号探测器:让停车管理更高效智能

    深圳特信电子|车载车库GPS信号探测器:让停车管理更高效智能
    的头像 发表于 05-23 08:54 336次阅读

    视频光纤矩阵技术的发展趋势:更快、更稳定、更高效

    随着信息技术的迅猛发展,视频光纤矩阵技术作为高清视频传输与处理的核心技术,正迎来其发展的黄金时期。未来,视频光纤矩阵技术的发展将呈现出更快、更稳定、更高效的趋势。 首先,速度的提升是视频光纤矩阵
    的头像 发表于 02-19 14:44 353次阅读

    怎么用FPGA做算法 如何在FPGA上实现最大公约数算法

    FPGA算法的优点在于它们可以提供高度的定制化和灵活性,使得算法可以根据实际需求进行优化和调整。此外,FPGA还可以实现硬件加速,提供比传统处理器更高的计算性能和吞吐量。因此,FPGA
    的头像 发表于 01-15 16:03 2207次阅读

    浮点LMS算法的FPGA实现

    运算的运算步骤远比定点运算繁琐,运算速度慢且所需硬件资源大大增加,因此基于浮点运算的LMS算法的硬件实现一直以来是学者们研究的难点和热点。 本文正是基于这种高效结构的多输入FPA,在FPGA上成功
    的头像 发表于 12-21 16:40 762次阅读