0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种在视觉语言导航任务中提出的新方法,来探索未知环境

电子工程师 来源:lp 2019-03-05 09:38 次阅读

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

什么是 VLN?

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

难点

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

2、SIL(Self-supervised Imitation Learning)方法

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。

测试结果

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

2、评价指标

PL:路径长度(Path Length)

NE:导航误差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    147

    浏览量

    10576
  • 自然语言
    +关注

    关注

    1

    文章

    288

    浏览量

    13347
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22033

原文标题:CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出一种新方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉
    的头像 发表于 12-13 11:18 133次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的<b class='flag-5'>新方法</b>

    大华股份荣获2024年中国创新方法大赛等奖

    近日,由中国科协、重庆市人民政府举办的2024年中国创新方法大赛全国总决赛重庆落下帷幕。大华股份灵活运用创新方法、突破行业性技术难题,凭借“不惧强光,分毫必现,基于TRIZ的强逆光锐捕技术”项目,斩获全国
    的头像 发表于 12-04 17:19 341次阅读

    基于视觉语言模型的导航框架VLMnav

    本文提出一种视觉语言模型(VLM)转换为端到端导航策略的具体框架。不依赖于感知、规划和控制之间的分离,而是使用VLM
    的头像 发表于 11-22 09:42 155次阅读

    利用全息技术硅晶圆内部制造纳米结构的新方法

    本文介绍了一种利用全息技术硅晶圆内部制造纳米结构的新方法。 研究人员提出一种硅晶圆内部制造
    的头像 发表于 11-18 11:45 290次阅读

    一种将NeRFs应用于视觉定位任务新方法

    视觉定位旨在估计已知环境中捕获的给定图像的旋转和位置,大致可以分为绝对姿态回归(APR),场景坐标回归(SCR)和分层方法(HM)。
    的头像 发表于 10-28 10:03 195次阅读
    <b class='flag-5'>一种</b>将NeRFs应用于<b class='flag-5'>视觉</b>定位<b class='flag-5'>任务</b>的<b class='flag-5'>新方法</b>

    SLAM:机器人如何在未知地形环境中进行导航

    的传统导航方法需要预先准备好的地图,但在未知地区,如果不穿越该区域,就不可能获得这样的地图。这是机器人技术领域的个典型难题,通常被称为“鸡和蛋”的问题。机器人如何在没有地图的情况下在
    的头像 发表于 10-02 16:37 486次阅读

    一种完全分布式的点线协同视觉惯性导航系统

    本文中,我们提出一种完全分布式的点线协同视觉惯性导航系统。我们通过蒙特卡罗模拟和真实环境数据
    的头像 发表于 09-30 14:45 400次阅读
    <b class='flag-5'>一种</b>完全分布式的点线协同<b class='flag-5'>视觉</b>惯性<b class='flag-5'>导航</b>系统

    一种半动态环境中的定位方法

    和终身定位方法,以识别非静态环境中的半动态物体,并提出个通用框架,将主流物体检测算法与建图和定位算法集成在起。建图
    的头像 发表于 09-30 14:40 260次阅读
    <b class='flag-5'>一种</b>半动态<b class='flag-5'>环境</b>中的定位<b class='flag-5'>方法</b>

    一种无透镜成像的新方法

    使用OAM-HHG EUV光束对高度周期性结构进行成像的EUV聚光显微镜 为了研究微电子或光子元件中的纳米级图案,一种基于无透镜成像的新方法可以实现近乎完美的高分辨率显微镜。 层析成像是一种强大的无
    的头像 发表于 07-19 06:20 376次阅读
    <b class='flag-5'>一种</b>无透镜成像的<b class='flag-5'>新方法</b>

    一种利用光电容积描记(PPG)信号和深度学习模型对高血压分类的新方法

    使用的方法将在以下部分中详细阐述。 AlexNet是一种深度卷积神经网络,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton2012年提出
    发表于 05-11 20:01

    微软提出通过SSD固态硬盘降低显存占用的新方法

    据3月25日发布的信息显示,微软近期通过了项专供电专利成功提出一种新型SSD驱动器缓存技术降低显存占用量,这将会为未来的DRX API更新后的游戏
    的头像 发表于 03-25 10:39 490次阅读

    轧机牌坊滑板压亏修复的新方法

    电子发烧友网站提供《轧机牌坊滑板压亏修复的新方法.docx》资料免费下载
    发表于 03-14 16:16 0次下载

    氢压机轴承位磨损维修的新方法

    电子发烧友网站提供《氢压机轴承位磨损维修的新方法.docx》资料免费下载
    发表于 03-01 16:23 0次下载

    一种基于自然语言的轨迹修正方法

    LLMs实现用户话语和特征描述的语义匹配,进而将轨迹修改函数应用于初始轨迹,实现对未见过的轨迹和物体配置的泛化。通过模拟和物理机器人手臂上的用户研究,我们验证了使用ExTraCT方法变形的轨迹80%情况下更准确且更受欢迎,表现优于基线
    的头像 发表于 01-19 10:45 441次阅读
    <b class='flag-5'>一种</b>基于自然<b class='flag-5'>语言</b>的轨迹修正<b class='flag-5'>方法</b>

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法
    的头像 发表于 01-13 11:37 1063次阅读