0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种在视觉语言导航任务中提出的新方法,来探索未知环境

电子工程师 来源:lp 2019-03-05 09:38 次阅读

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

什么是 VLN?

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

难点

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

2、SIL(Self-supervised Imitation Learning)方法

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。

测试结果

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

2、评价指标

PL:路径长度(Path Length)

NE:导航误差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    126

    浏览量

    10562
  • 自然语言
    +关注

    关注

    1

    文章

    286

    浏览量

    13322
  • nlp
    nlp
    +关注

    关注

    1

    文章

    486

    浏览量

    21995

原文标题:CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种将NeRFs应用于视觉定位任务新方法

    视觉定位旨在估计已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。
    的头像 发表于 10-28 10:03 129次阅读
    <b class='flag-5'>一种</b>将NeRFs应用于<b class='flag-5'>视觉</b>定位<b class='flag-5'>任务</b>的<b class='flag-5'>新方法</b>

    SLAM:机器人如何在未知地形环境中进行导航

    的传统导航方法需要预先准备好的地图,但在未知地区,如果不穿越该区域,就不可能获得这样的地图。这是机器人技术领域的个典型难题,通常被称为“鸡和蛋”的问题。机器人如何在没有地图的情况下在
    的头像 发表于 10-02 16:37 327次阅读

    一种完全分布式的点线协同视觉惯性导航系统

    本文中,我们提出一种完全分布式的点线协同视觉惯性导航系统。我们通过蒙特卡罗模拟和真实环境数据
    的头像 发表于 09-30 14:45 291次阅读
    <b class='flag-5'>一种</b>完全分布式的点线协同<b class='flag-5'>视觉</b>惯性<b class='flag-5'>导航</b>系统

    一种半动态环境中的定位方法

    和终身定位方法,以识别非静态环境中的半动态物体,并提出个通用框架,将主流物体检测算法与建图和定位算法集成在起。建图
    的头像 发表于 09-30 14:40 190次阅读
    <b class='flag-5'>一种</b>半动态<b class='flag-5'>环境</b>中的定位<b class='flag-5'>方法</b>

    一种无透镜成像的新方法

    使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜 为了研究微电子或光子元件中的纳米级图案,一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。 层析成像是一种强大的无
    的头像 发表于 07-19 06:20 299次阅读
    <b class='flag-5'>一种</b>无透镜成像的<b class='flag-5'>新方法</b>

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    使用的方法将在以下部分中详细阐述。 AlexNet是一种深度卷积神经网络,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton2012年提出
    发表于 05-11 20:01

    轧机牌坊滑板压亏修复的新方法

    电子发烧友网站提供《轧机牌坊滑板压亏修复的新方法.docx》资料免费下载
    发表于 03-14 16:16 0次下载

    氢压机轴承位磨损维修的新方法

    电子发烧友网站提供《氢压机轴承位磨损维修的新方法.docx》资料免费下载
    发表于 03-01 16:23 0次下载

    imec提出以亚微米像素尺寸分离颜色的新方法赋能CMOS图像传感器

    据麦姆斯咨询报道,近期,美国加利福尼亚州旧金山举行的国际电子器件会议(IEEE IEDM 2023)上,比利时纳米电子学和数字技术研究与创新中心imec展示了一种300mm晶圆上使用标准后端制造工艺
    的头像 发表于 12-19 16:13 641次阅读
    imec<b class='flag-5'>提出</b>以亚微米像素尺寸分离颜色的<b class='flag-5'>新方法</b>赋能CMOS图像传感器

    一种产生激光脉冲新方法

    等离子体中脉冲压缩的概念 英国和韩国的科学家提出一种产生激光脉冲的新方法,其功率是现有激光脉冲的1000多倍。 科学家们使用计算机模拟联合研究,展示了一种压缩光的
    的头像 发表于 12-07 06:32 458次阅读
    <b class='flag-5'>一种</b>产生激光脉冲<b class='flag-5'>新方法</b>

    IC封装中快速创建结构的新方法

    IC封装中快速创建结构的新方法
    的头像 发表于 12-06 16:34 544次阅读
    IC封装中快速创建结构的<b class='flag-5'>新方法</b>

    应对传统摩尔定律微缩挑战需要芯片布线和集成的新方法

    应对传统摩尔定律微缩挑战需要芯片布线和集成的新方法
    的头像 发表于 12-05 15:32 528次阅读
    应对传统摩尔定律微缩挑战需要芯片布线和集成的<b class='flag-5'>新方法</b>

    基于PMSM 控制系统仿真建模的新方法

    电子发烧友网站提供《基于PMSM 控制系统仿真建模的新方法.pdf》资料免费下载
    发表于 11-29 11:22 1次下载
    基于PMSM 控制系统仿真建模的<b class='flag-5'>新方法</b>

    一种产生激光脉冲的新方法

    英国和韩国的科学家提出一种产生激光脉冲的新方法,其功率是现有激光脉冲的1000多倍。
    的头像 发表于 11-20 16:56 534次阅读
    <b class='flag-5'>一种</b>产生激光脉冲的<b class='flag-5'>新方法</b>

    VLSI系统设计的最新方法

    电子发烧友网站提供《VLSI系统设计的最新方法.pdf》资料免费下载
    发表于 11-20 11:10 0次下载
    VLSI系统设计的最<b class='flag-5'>新方法</b>