0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于最近将深度强化学习应用于迷宫导航的研究

zhKF_jqr_AI 来源:未知 作者:李倩 2018-04-08 09:06 次阅读

在每个人的童年时期,我们是如何学会记住自己家附近的路的?我们是怎样学会自己去朋友家、学校或者去小卖部的?在没有地图的情况下,我们可能只是简单地记住了某条路长什么样,凭记忆引导自己。慢慢地,我们逐渐熟悉了自己的日常活动范围,就变得有信心了,能知道自己身在何处,并且学习了新的更复杂的道路。偶尔你可能会迷路,但是凭借某个标志甚至太阳你又能找到正确的路。

在非结构化的环境中导航是智能生物的特有的功能,想要实现远程导航,首先要对空间进行内部探索,然后要识别地标,同时还要有强大的视觉处理能力。基于最近将深度强化学习应用于迷宫导航的研究,DeepMind的研究人员也提出了一种端到端的深度强化学习方法,他们让智能体在真实的城市空间中导航,无需地图,并且这种方法还能迁移到不同城市环境。

导航是一项重要的认知任务,它能让人类和动物在没有地图的情况下,穿越过一片阡陌纵横的区域。这种远距离导航可以同时进行自我定位(我在这里)和目标表示(我要去那里)。

在Learning to Navigate in Cities Without a Map这篇论文里,我们展示了一种交互式导航环境,利用第一人称视角的谷歌街景照片做素材,将其游戏化以训练AI。标准的街景照片,人脸和车牌都被模糊,无法识别。我们建立了一个基于神经网络的智能体,学习使用视觉信息在多个城市中导航。注意,这项研究关注的是一般导航,而非驾驶导航;我们没有使用交通信息,也没有对车辆控制进行建模。

数据来源于真实街景。从左至右分别为纽约时代广场、中央公园和伦敦圣保罗大教堂

当智能体达到目的地时,它就会获得奖励(具体来说是一个经纬度坐标),就像一个没有地图的邮递员,要送无数的快递。随着时间的发展,智能体慢慢学会了用这种方法穿越整个城市。我们同样证明了智能体可以学习多个城市的道路,并且这种学习方法能有效迁移到新的城市中。

在没有地图的情况下学习导航

我们不使用传统的依赖外部映射和探索的传统方法,而是让智能体学习像人类一样导航,不用地图、GPS定位或其他辅助工具,只用视觉观察。我们创建了一个神经网络智能体,向其中输入在环境中观察到的图像,并预测它在该环境中执行的下一项操作。我们使用深度强化学习对其进行端到端训练,类似最近让智能体在复杂的3D迷宫中学习导航的研究,以及用无监督辅助方法玩游戏。与迷宫不同,我们利用真实的城市数据,例如伦敦、巴黎和纽约的复杂交叉路口、人行道、隧道和各种城市道路。此外,我们使用的方法可以迁移到不同城市,并可以优化导航行为。

模块化神经网络

我们智能体的神经网络包括三个部分:

能够处理图像并提取视觉特征的卷积网络

一个特定场所的循环神经网络,在内部进行对环境的记忆并学习表示“这里”(智能体的当前位置)和“那里”(目标位置);

一个位置不变的循环网络,能够根据智能体位置的变化进行导航。

特定场所的模块被设计成可互换的,并且正如其名,对于每个城市都是唯一的,而视觉模块和策略模块是不随着场景而变换的。

就像谷歌街景的界面一样,智能体可以在原地打转,也可以向前进入到下一个场景。但与谷歌地图和街景不同的是,智能体看不到小箭头、局部或全景地图以及标志性的街景小人,它还需要学习区分开放道路和人行道。目的地可能是几公里以外的地方,智能体需要搜索几百个全景图才能到达。

我们证明了这种方法能提供一种机制,将导航知识迁移到新城市中。和人类一样,当智能体来到一个新城市,我们会希望它学习一组新的地标,但不必重新学习它的视觉表现或行为(例如,沿着街道向前缩放,或者在交叉路口转向)。因此,使用MultiCity架构,我们在许多城市进行首次训练,然后冻结策略网络和视觉卷积网络,并在一个新城市中建立唯一一个新的特定地区路径。这种方法让智能体在获取新知识的同时不忘之前学到的东西,类似渐进式神经网络架构。

学习导航是人工智能领域的基础,试图在智能体中复制导航功能还可以帮助科学家了解其生物学基础。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4773

    浏览量

    100874
  • 导航
    +关注

    关注

    7

    文章

    529

    浏览量

    42446
  • 人工智能
    +关注

    关注

    1792

    文章

    47375

    浏览量

    238877

原文标题:无需地图,DeepMind让智能体在城市中自我导航

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何在化学和材料科学领域开展有影响力的人工智能研究?(二)

    第二部分编译后的内容:3.问题遇见方法:从机器学习的视角去解决化学问题的方法在机器学习的具体内容应用于实践中的过程中,有大量可供参考的资源
    的头像 发表于 12-03 01:02 236次阅读
    如何在<b class='flag-5'>化学</b>和材料科学领域开展有影响力的人工智能<b class='flag-5'>研究</b>?(二)

    蚂蚁集团收购边塞科技,吴翼出任强化学习实验室首席科学家

    领域的研究与发展。令人瞩目的是,边塞科技的创始人吴翼已正式加入该实验室,并担任首席科学家一职。 吴翼在其个人社交平台上对这一变动进行了回应。他表示,自己最近接受了蚂蚁集团的邀请,负责大模型强化学习领域的
    的头像 发表于 11-22 11:14 615次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源机器学习库,
    的头像 发表于 11-05 17:34 319次阅读

    GPU深度学习应用案例

    能力,可以显著提高图像识别模型的训练速度和准确性。例如,在人脸识别、自动驾驶等领域,GPU被广泛应用于加速深度学习模型的训练和推理过程。 二、自然语言处理 自然语言处理(NLP)是深度
    的头像 发表于 10-27 11:13 414次阅读

    谷歌AlphaChip强化学习工具发布,联发科天玑芯片率先采用

    近日,谷歌在芯片设计领域取得了重要突破,详细介绍了其用于芯片设计布局的强化学习方法,并将该模型命名为“AlphaChip”。据悉,AlphaChip有望显著加速芯片布局规划的设计流程,并帮助芯片在性能、功耗和面积方面实现更优表现。
    的头像 发表于 09-30 16:16 431次阅读

    FPGA做深度学习能走多远?

    ,FPGA 也需要不断适应和改进。研究人员和开发者致力于针对 FPGA 的特点对深度学习算法进行优化,例如探索更高效的模型压缩方法、量化技术以及硬件友好的算法结构等,以进一步提高 F
    发表于 09-27 20:53

    利用Matlab函数实现深度学习算法

    在Matlab中实现深度学习算法是一个复杂但强大的过程,可以应用于各种领域,如图像识别、自然语言处理、时间序列预测等。这里,我概述一个基本的流程,包括环境设置、数据准备、模型设计、训
    的头像 发表于 07-14 14:21 2280次阅读

    深度学习中的时间序列分类方法

    时间序列分类(Time Series Classification, TSC)是机器学习深度学习领域的重要任务之一,广泛应用于人体活动识别、系统监测、金融预测、医疗诊断等多个领域。随
    的头像 发表于 07-09 15:54 1007次阅读

    深度学习与nlp的区别在哪

    深度学习和自然语言处理(NLP)是计算机科学领域中两个非常重要的研究方向。它们之间既有联系,也有区别。本文介绍深度
    的头像 发表于 07-05 09:47 965次阅读

    基于深度学习的小目标检测

    在计算机视觉领域,目标检测一直是研究的热点和难点之一。特别是在小目标检测方面,由于小目标在图像中所占比例小、特征不明显,使得检测难度显著增加。随着深度学习技术的快速发展,尤其是卷积神经网络(CNN
    的头像 发表于 07-04 17:25 933次阅读

    深度学习常用的Python库

    深度学习作为人工智能的一个重要分支,通过模拟人类大脑中的神经网络来解决复杂问题。Python作为一种流行的编程语言,凭借其简洁的语法和丰富的库支持,成为了深度学习
    的头像 发表于 07-03 16:04 664次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 373次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    深度解析深度学习下的语义SLAM

    随着深度学习技术的兴起,计算机视觉的许多传统领域都取得了突破性进展,例如目标的检测、识别和分类等领域。近年来,研究人员开始在视觉SLAM算法中引入深度
    发表于 04-23 17:18 1315次阅读
    <b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>学习</b>下的语义SLAM

    FPGA在深度学习应用中或取代GPU

    对神经网络进行任何更改,也不需要学习任何新工具。不过你可以保留你的 GPU 用于训练。” Zebra 提供了深度学习代码转换为 FPGA
    发表于 03-21 15:19

    一文详解Transformer神经网络模型

    Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的
    发表于 02-20 09:55 1.4w次阅读
    一文详解Transformer神经网络模型