0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是主动视觉跟踪?让目标与跟踪器“斗起来”

DPVg_AI_era 来源:lq 2019-02-20 09:13 次阅读

本文是ICLR2019入选论文《AD-VAT: An Asymmetric Dueling mechanism for learning Visual Active Tracking》的深入解读。该论文由北京大学数字视频编解码技术国家工程实验室博士生钟方威、严汀沄在王亦洲老师和腾讯AI Lab研究员孙鹏、罗文寒的指导下合作完成。该研究也入选了2018腾讯AI Lab犀牛鸟专项研究计划。

什么是主动视觉跟踪?

主动视觉跟踪(Visual Active Tracking)是指智能体根据视觉观测信息主动控制相机的移动,从而实现对目标物体的跟踪(与目标保持特定距离)。主动视觉跟踪在很多真实机器人任务中都有需求,如用无人机跟拍目标拍摄视频,智能跟随旅行箱等。要实现主动视觉跟踪,智能体需要执行一系列的子任务,如目标识别、定位、运动估计和相机控制等。

然而,传统的视觉跟踪方法的研究仅仅专注于从连续帧中提取出关于目标的2D包围框,而没有考虑如何主动控制相机移动。因此,相比于这种“被动”跟踪,主动视觉跟踪更有实际应用价值,但也带来了诸多挑战。

左图:一个机器人主动跟随目标移动(图片来自网络

右图:对比基于强化学习的端到端主动跟踪和传统的跟踪方法[1]

深度强化学习方法有前景,但仍有局限性

在前期的工作[1][2]中,作者提出了一种用深度强化学习训练端到端的网络来完成主动视觉跟踪的方法,不仅节省了额外人工调试控制器的精力,而且取得了不错的效果,甚至能够直接迁移到简单的真实场景中工作。

然而,这种基于深度强化学习训练的跟踪器的性能一定程度上仍然受限于训练的方法。因为深度强化学习需要通过大量试错来进行学习,而直接让机器人在真实世界中试错的代价是高昂的。一种常用的解决方案是使用虚拟环境进行训练,但这种方法最大的问题是如何克服虚拟和现实之间的差异,使得模型能够部署到真实应用当中。虽然已经有一些方法尝试去解决这个问题,如构建大规模的高逼真虚拟环境用于视觉导航的训练,将各个因素(表面纹理/光照条件等)随机化扩增环境的多样性。

对于主动视觉跟踪的训练问题,不仅仅前背景物体外观的多样性,目标运动轨迹的复杂程度也将直接影响跟踪器的泛化能力。可以考虑一种极端的情况:如果训练时目标只往前走,那么跟踪器自然不会学会适应其它的运动轨迹,如急转弯。但对目标的动作、轨迹等因素也进行精细建模将会是代价高昂的且无法完全模拟所有真实情况。

让目标与跟踪器“斗起来”

因此,作者提出了一种基于对抗博弈的强化学习框架用于主动视觉跟踪的训练,称之为AD-VAT(Asymmetric Dueling mechanism for learning Visual Active Tracking)。

在这个训练机制中,跟踪器和目标物体被视作一对正在“决斗”的对手(见下图),也就是跟踪器要尽量跟随目标,而目标要想办法脱离跟踪。这种竞争机制,使得他们在相互挑战对方的同时相互促进共同提升。

当目标在探索逃跑策略时,会产生大量多种多样的运动轨迹,并且这些轨迹往往会是当前跟踪器仍不擅长的。

在这种有对抗性的目标的驱动下,跟踪器的弱点将更快地暴露随之进行强化学习,最终使得其鲁棒性得到显著提升。

在训练过程中,因为跟踪器和目标的能力都是从零开始同步增长的,所以他们在每个训练阶段都能够遇到一个能力相当的对手与之竞争,这就自然得构成了从易到难的课程,使得学习过程更加高效。

然而,直接构造成零和游戏进行对抗训练是十分不稳定且难以收敛的。

AD-VAT概览

如何让对抗更加高效且稳定?

为解决训练的问题,作者提出了两个改进方法:不完全零和的奖赏函数(partial zero-sum reward)和用于目标的跟踪可知模型(tracker-aware model)。

不完全零和奖赏是一种混合的奖赏结构,仅鼓励跟踪器和目标在一定相对范围内进行零和博弈,当目标到达一定距离外时给予其额外的惩罚,此时将不再是零和博弈,因此称之为不完全零和奖赏。

这么设计奖赏函数是为了避免一个现象,当目标快速远离跟踪器时,跟踪器将不能观察到目标,以至于训练过程变得低效甚至不稳定。

上式为跟踪器的奖赏函数,沿用了[1]中的设计思想,惩罚项由期望位置与目标之间的距离所决定。

上式为目标的奖赏函数,在观测范围内,目标与跟踪器进行零和博弈,即奖赏函数为跟踪器的奖赏直接取负。在观测范围外,将在原来的基础上得到一个额外的惩罚项,惩罚项的取值取决于目标与跟踪器的观测边界的距离。

跟踪可知模型是为了让目标能够针对跟踪策略学会更优的对抗策略,所谓“知己知彼,百战不殆”。具体的,除了其自身的视觉观测外,还额外获得了跟踪器的观测和动作输出作为模型的输入。

为了更好地学习关于跟踪器的特征表示,作者还引入了一个辅助任务:预测跟踪器的即时奖赏值。

基于以上改进,“决斗(Dueling)”双方在观测信息、奖赏函数、目标任务上将具备不对称性(Asymmetric),因此将这种对抗机制称之为“非对称决斗(Asymmetric Dueling)”。

实验环境

作者在多种不同的2D和3D环境开展了实验以更进一步验证该方法的有效性。2D环境是一个简单的矩阵地图,用不同的数值分别表示障碍物、目标、跟踪器等元素。

作者设计了两种规则生成地图中的障碍物分布(Block, Maze)。作者设计了两种基于规则的目标运动模型作为基准:漫步者(Rambler)和导航者(Navigator)。

漫步者是随机从选择动作和持续的时间,生成的轨迹往往在一个局域范围内移动(见Block-Ram中的黄色轨迹)。

导航者则是从地图中随机采样目标点,然后沿着最短路径到达目标,因此导航者将探索更大范围(见Block-Nav中的黄色轨迹)。

将这些不同种的地图和目标依次组合,构成了不同的训练和测试环境。作者只用其中的一种地图(Block)用作训练,然后在所有可能的组合环境中测试,从而证明模型的泛化能力。

3D环境是基于UE4和UnrealCV[3]构建的虚拟环境。作者只用一个采取域随机技术(环境中物体表面纹理、光照条件都可以进行随机设置)的房间(DR Room, Domain Randomized Room)进行训练,然后在三个不同场景的近真实场景中测试模型的性能。

实验结果

在2D环境中,作者首先验证了AD-VAT相比基准方法能够带来有效提升,同时进行了消融实验来证明两个改进方法的有效性。

左图为AD-VAT(蓝线)和基准方法在2D环境中的训练曲线,可见AD-VAT能够让跟踪器学得更快更好。右图为消融实验的结果,对比删减不同模块后的学习曲线,作者提出的两个改进方法能够使对抗强化学习的训练更高效。

作者在3D环境中的实验更进一步证明该方法的有效性和实用性。

在训练过程中,作者观测到了一个有趣的现象,目标会更倾向于跑到背景与其自身纹理接近的区域,以达到一种“隐身”的效果来迷惑跟踪器。而跟踪器在被不断“难倒”后,最终学会了适应这些情况。

作者对比了由AD-VAT和两种基准方法训练的跟踪器在不同场景中的平均累计奖赏(左图)和平均跟踪长度(右图)。

其中,雪乡(Snow Village)和地下停车场(Parking Lot)是两个十分有挑战性的环境,每个模型的性能都有不同程度的下降,但该论文提出的模型取得了更好的结果,说明了AD-VAT跟踪器对复杂场景的适应能力更强。

雪乡主要的挑战在于地面崎岖不平,且相机会被下落的雪花、逆光的光晕等因素干扰导致目标被遮挡:

左图为跟踪器第一人称视角,右图为第三人称视角

停车场中光线分布不均匀(亮暗变化剧烈),且目标可能被立柱遮挡:

左图为跟踪器第一人称视角,右图为第三人称视角

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 跟踪器
    +关注

    关注

    0

    文章

    131

    浏览量

    20008
  • 视觉跟踪
    +关注

    关注

    0

    文章

    11

    浏览量

    8793
  • 强化学习
    +关注

    关注

    4

    文章

    265

    浏览量

    11208

原文标题:ICLR2019 | 你追踪,我逃跑:一种用于主动视觉跟踪的对抗博弈机制

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    视频目标跟踪从0到1,概念与方法

    视觉目标跟踪的挑战和算法模型,最后,我们将介绍最流行的基于深度学习的目标跟踪方法,包括MDNET,GOTURN,ROLO等。本文希望你
    的头像 发表于 11-20 01:06 51次阅读
    视频<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b>从0到1,概念与方法

    TRKRLDOEVM-119通用跟踪器LDO评估模块

    电子发烧友网站提供《TRKRLDOEVM-119通用跟踪器LDO评估模块.pdf》资料免费下载
    发表于 11-09 14:47 0次下载
    TRKRLDOEVM-119通用<b class='flag-5'>跟踪器</b>LDO评估模块

    使用TMS320C40 DSP实现单脉冲雷达的数字跟踪器

    电子发烧友网站提供《使用TMS320C40 DSP实现单脉冲雷达的数字跟踪器.pdf》资料免费下载
    发表于 10-28 10:04 0次下载
    使用TMS320C40 DSP实现单脉冲雷达的数字<b class='flag-5'>跟踪器</b>

    高抗噪性 电压跟踪器

    电压跟踪
    jf_30741036
    发布于 :2024年09月29日 19:26:44

    用逻辑和翻译用例优化资产跟踪器

    电子发烧友网站提供《用逻辑和翻译用例优化资产跟踪器.pdf》资料免费下载
    发表于 09-21 11:24 0次下载
    用逻辑和翻译用例优化资产<b class='flag-5'>跟踪器</b>

    创想智控激光焊缝跟踪器协同专机在风机高精度自动焊接的应用

    和自动化设备盲焊,难以满足现代工业对高精度、‌高效率的需求。‌为此,‌创想智控推出了激光焊缝跟踪器协同专机的高精度自动焊接解决方案。   激光焊缝跟踪器原理   激光焊缝跟踪器是一种先进的传感技术,利用激光扫
    的头像 发表于 09-06 18:16 231次阅读
    创想智控激光焊缝<b class='flag-5'>跟踪器</b>协同专机在风机高精度自动焊接的应用

    光学跟踪器接口连接方法有哪些

    光学跟踪器是一种用于测量和跟踪物体位置和运动的设备,广泛应用于航空航天、军事、机器人、虚拟现实等领域。光学跟踪器接口连接方法是指将光学跟踪器与计算机或其他设备进行连接和通信的方法。 有
    的头像 发表于 08-29 18:26 556次阅读

    光学跟踪器信号源手机怎么设置

    光学跟踪器是一种用于测量和跟踪物体位置和运动的设备。它通常由一个摄像头、一个光源和一个传感组成。在手机中,光学跟踪器可以通过应用程序实现,例如AR(增强现实)应用。 以下是一些关于光
    的头像 发表于 08-29 18:03 544次阅读

    光学跟踪器使用的技术有哪几种

    光学跟踪器是一种用于测量和跟踪目标位置的高精度设备,广泛应用于军事、航空航天、工业自动化、科学实验等领域。它们通常利用光学原理来确定目标的位置、速度和加速度。光学
    的头像 发表于 08-29 17:37 770次阅读

    创想智控激光焊缝跟踪器在医疗搅拌罐反应釜自动焊接的应用

    焊接路径,提高焊接精度,减少人工干预,成了自动焊接领域的利器。今天跟随创想智控一起了解激光焊缝跟踪器在医疗搅拌罐反应釜自动焊接的应用。    激光焊缝跟踪器原理   激光焊缝跟踪器通过激光传感
    的头像 发表于 08-24 13:57 185次阅读
    创想智控激光焊缝<b class='flag-5'>跟踪器</b>在医疗搅拌罐反应釜自动焊接的应用

    创想智控激光焊缝跟踪器在机械法兰盘自动扫描焊接的应用

    应运而生,成为解决这些问题的有效工具。今天一起了解创想智控激光焊缝跟踪器在机械法兰盘自动扫描焊接的应用。    激光焊缝跟踪器原理   激光焊缝跟踪器利用高精度激光扫描技术,实时检测焊缝位置并调整焊接路径。其原理
    的头像 发表于 08-17 15:58 1724次阅读
    创想智控激光焊缝<b class='flag-5'>跟踪器</b>在机械法兰盘自动扫描焊接的应用

    目标跟踪算法总结归纳

    目标跟踪是计算机视觉领域中的一个重要任务,它旨在从视频或图像序列中准确地检测和跟踪多个移动目标。不过在落地部署时,有一些关键点需要解决。
    的头像 发表于 04-28 09:42 1670次阅读
    多<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b>算法总结归纳

    Genius Tracker™ 安装速度远超竞争对手的单轴跟踪器

    来自第三方的时间研究表明 GameChange Solar 的 Genius Tracker™ 安装速度远超竞争对手的单轴跟踪器 现场研究表明,照比市场中其他三款有竞争力的 1P 跟踪器
    的头像 发表于 04-07 16:49 447次阅读

    Wi-SUN 可最大限度地提高太阳能跟踪器的性能

    目前,随着光伏系统技术的进步,智能跟踪得以实现,可最大限度地提高太阳光能的输出。不同于固定式电池板,太阳能光伏 (PV) 跟踪器能够全天将太阳能电池板朝向太阳,并在恶劣天气下保护电池板免受冰雹或狂风
    的头像 发表于 01-07 08:38 649次阅读
    Wi-SUN 可最大限度地提高太阳能<b class='flag-5'>跟踪器</b>的性能

    什么是电压跟踪器

    什么是电压跟踪器
    的头像 发表于 12-07 16:10 893次阅读
    什么是电压<b class='flag-5'>跟踪器</b>?