0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种在视觉语言导航任务中提出的新方法,来探索未知环境

电子工程师 来源:lp 2019-03-05 09:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

什么是 VLN?

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

难点

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

2、SIL(Self-supervised Imitation Learning)方法

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。

测试结果

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

2、评价指标

PL:路径长度(Path Length)

NE:导航误差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    551

    浏览量

    11642
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    14025
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23337

原文标题:CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    面向视觉语言导航任务驱动式地图学习框架MapDream介绍

    视觉语言导航(VLN)中,地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多
    的头像 发表于 03-02 10:40 574次阅读
    面向<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b>的<b class='flag-5'>任务</b>驱动式地图学习框架MapDream介绍

    用于窄带匹配高速射频ADC的全新方法

    本期,为大家带来的是《用于窄带匹配高速射频 ADC 的全新方法》,介绍了一种用于窄带匹配高速射频 ADC 的全新方法,以解决高中间频率系统中 ADC 前端窄带匹配的设计难题,可在 ADC 额定带宽内应用,能提升 ADC 性能、减
    的头像 发表于 01-04 15:56 7479次阅读
    用于窄带匹配高速射频ADC的全<b class='flag-5'>新方法</b>

    奥松电子荣获2025年中国创新方法大赛全国总决赛二等奖

    2025年11月18日-21日,2025年中国创新方法大赛总决赛山东省泰安市成功举办。国内MEMS智能传感器与半导体关键零部件领域的国家级专精特新“小巨人”企业——广州奥松电子股份有限公司,凭借
    的头像 发表于 12-05 15:17 705次阅读

    海康威视荣获2025年中国创新方法大赛总决赛金奖

    近日,2025年中国创新方法大赛圆满落幕。海康威视凭借《工业听诊师——超长距离皮带运输机托辊声纹监测系统》项目脱颖而出,斩获全国总决赛唯金奖。
    的头像 发表于 12-04 10:55 588次阅读

    AGV视觉导航:智能物流的“智慧之眼”

    获取移动物体空间中所处的位置、方向和其他环境信息,并用定的算法对所获信息进行处理,建立环境模型,进而寻找条最优或近似最优的无碰路径,实
    的头像 发表于 11-04 15:54 724次阅读
    AGV<b class='flag-5'>视觉</b><b class='flag-5'>导航</b>:智能物流的“智慧之眼”

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    计算 闪存的新颖方法代表了一种多用途的管理模型权重的策略,它根据输入的性质提升性能,从而增强所提出的方案各种大模型场景中的有效性、可用性和实用性。 3、基于GPU的大模型计算 3.
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技术,包括新型晶体管
    发表于 09-05 15:10

    基于直接反电动势法的无刷直流电机准确换相新方法

    或滞后换相的情况,通过设置合理的延迟时间实现最佳换相,针对实际电机存在反电动势过零点分布不均匀的情况,根据过零点间隔时间存在着周期性规律,提出一种新的延迟时间设置方法,使换相点位于相
    发表于 08-07 13:40

    基于硬件的无位置传感器无刷直流电机启动新方法

    针对传统的无位置传感器无刷直流电机控制的起动需采用复杂的软件、成本高、定位不准确、容易堵转的缺陷,提出一种通过检测线电压差获得转子位置的方法提出
    发表于 08-07 13:30

    基于直接反电动势法的无刷直流电机准确换相新方法

    运行时存在超前换相或滞后换相的情况,通过设置合理的延迟时间实现最佳换相,针对实际电机存在反电动势过零点分布不均匀的情况,根据过零点间隔时间存在着周期性规律,提出一种新的延迟时间设置方法
    发表于 07-30 16:00

    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的新方法

    环境光干扰及薄膜倾斜等因素限制,测量精度难以满足高精度工业需求。为此,本研究提出一种融合红外干涉与激光校准的薄膜厚度测量新方法,旨在突破传统技术瓶颈,实现更精准、
    的头像 发表于 07-21 18:17 3130次阅读
    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的<b class='flag-5'>新方法</b>

    无刷直流电机转矩脉动抑制新方法

    转矩脉动是影响无剧直流电机高精度伺服系统中应用的主要原因。提出一种基于a-p变换和Lyapunov函数的转矩脉动抑制直接功率控制方法。该方法
    发表于 07-09 14:12

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理
    的头像 发表于 07-08 10:00 736次阅读
    Aux-Think打破<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b><b class='flag-5'>任务</b>的常规推理范式

    无刷直流电机滑模观测器参数优化设计方法

    摘要:滑模反电势观测器的增益参数会影响观测器的收敛速度以及动态响应性能,常见的设计方法是基于观测器稳定性理论进行设计。提出一种利用遗传算法稳定域内搜索观测误差最小的增益参数的
    发表于 06-27 16:48

    无刷直流电机反电势过零检测新方法

    摘 要:无位置传感器无刷直流电机高速段时反电势信号过大,容易造成检测电路无法正常工作其至损坏,而在较低速段时,反电势信号又难以有效检测。针对反电势过零检测极端速段的问题,提出一种
    发表于 06-26 13:50