0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind提出SAC-X学习范式,无需先验知识就能解决稀疏奖励任务

zhKF_jqr_AI 来源:未知 作者:李建兵 2018-03-17 10:51 次阅读

让儿童(和成年人)整理东西已经是件难事了,但是想让AI像人一样整理东西是个不小的挑战。一些视觉运动的核心技能是取得成功的关键:接近一个物体,抓住并且提起它,然后打开一个盒子,将其放入盒中。要完成更复杂的动作,必须按照正确顺序应用这些技能。

控制任务,比如整理桌子或堆叠物体,都需要智能体决定如何、何时并且在哪里协调机械臂和手指的六个关节以移动并实现目标。在某一特定时刻,可能的动作会有多种组合,并且要想把它们按顺序组合好,就产生了严重的问题——这也使得强化学习成为一个有趣的领域。

类似奖励塑造(reward shaping)、学徒式学习(apprenticeship learning)或从展示中学习有助于解决上述问题。但是,这些方法需要对任务有足够的了解——利用很少的先验知识学习复杂的控制任务仍然是未解决的挑战。

昨天,DeepMind提出了一种新的学习模式,名为“计划辅助控制(SAC-X)”以解决上述问题。SAC-X的工作原理是,为了从零开始掌握复杂任务,智能体必须先学习探索一系列基础技能,并掌握他们。正如婴儿在学会爬行和走路前必须学会保持平衡一样,让智能体学习简单技能以增强内部协调性,有助于它们理解并执行复杂任务。

研究人员在一些模拟环境和真实机器人上试验了SAC-X方法,其中包括堆叠不同目标物体和整理桌子(其中需要移动对象)。他们所指的辅助任务的通用原则是:鼓励智能体探索它的感应空间。例如,激活手指的触觉感应器、在腕部的感应器感受力度的大小、将本体感应器的关节角度最大化或强制物体在其视觉相机传感器中移动。如果达到目标,每个任务都会得到一个简单的奖励,否则没有奖励。

模拟智能体最终掌握了“堆叠”这一复杂任务

智能体最后能自己决定它现在的“目的”,即下一步要完成什么目标,这有可能是一项辅助任务,或是外部决定的目标任务。重要的是,通过广泛使用off-policy学习,智能体可以检测到奖励信号并从中学习。比如,在捡起或移动目标物体时,智能体可能会不经意间完成堆叠动作,这样会使奖励观察到这一动作。由于一系列简单任务能导致稀有的外部奖励,所以对目标进行规划是十分重要的。它可以根据收集的相关知识创建个性化的学习课程。事实证明这是在如此宽广的领域开发知识的有效方式,并且当只有少量外部奖励信号可用时,这种方法更加有用。我们的智能体通过调度模块决定下一个目标。调度器在训练过程中通过元学习算法得到改进,该算法试图让主任务的进度实现最大化,显著提高数据效率。

探索了一些内部辅助任务后,智能体学会了如何堆叠及清理物品

对SAC-X的评估表示,使用相同的底层辅助任务,SAC-X能从零开始解决问题。令人兴奋的是,在实验室里,SAC-X能在真实的机械臂上从零学习拾取和放置任务。这在过去是很有难度的,因为在真实的机械臂上学习需要数据效率。所以人们通常会训练一个模拟智能体,然后再转移到真正的机械臂上。

DeepMind的研究人员认为SAC-X的诞生是从零学习控制任务的重要一步(只需要确定任务的最终目标)。SAC-X允许你设定任意的辅助任务:它可以是一般的任务(如激活传感器),也可以是研究人员需要的任何任务。也就是说在这方面,SAC-X是一种通用的强化学习方法,除了用于控制任务和机器人任务之外,能广泛适用于一般的稀疏强化学习环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DeepMind
    +关注

    关注

    0

    文章

    130

    浏览量

    10883

原文标题:DeepMind提出SAC-X学习范式,无需先验知识就能解决稀疏奖励任务

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于稀疏编码的迁移学习及其在行人检测中的应用

    一定进展,但大都需要大量的训练数据.针对这一问题,提出了一种基于迁移学习的半监督行人分类方法:首先基于稀疏编码,从任意的未标记样本中,学习到一个紧凑、有效的特征表示;然后通过迁移
    发表于 04-24 09:48

    电脑硬件知识大全 大小问题自己就能解决 DOC文档

    电脑硬件知识大全大小问题自己就能解决DOC文档下载附件:
    发表于 02-18 15:29

    稀疏表示和字典学习是什么

    稀疏表示和字典学习的简单理解
    发表于 08-27 14:44

    未来的AI 深挖谷歌 DeepMind 和它背后的技术

    学习从非结构化数据中学习来编写分析报告或执行无人监督的任务。所有这些发展都为不同的公司发挥作用并证明他们的价值奠定了基础。因此,很多像DeepMind这样的公司成立了,来继续发展这一领
    发表于 08-26 12:04

    一种融合节点先验信息的图表示学习方法

    基于深度学习提出了融合节点先验信息的图表示学习方法,该方法将节点特征作为先验知识。要求
    发表于 12-18 16:53 0次下载
    一种融合节点<b class='flag-5'>先验</b>信息的图表示<b class='flag-5'>学习</b>方法

    先验置信传播的图像修复算法

    先验置信传播( priority-BP)算法很难在实际中达到实时处理的要求,计算效率也有很大的提升空间。针对先验BP算法在图像修复上的应用,改进算法主要在信息传递以及标签搜索方面提出改进措施。在信息
    发表于 12-21 09:26 0次下载
    <b class='flag-5'>先验</b>置信传播的图像修复算法

    DeepMind通过SAC-X推新算法教AI从零学起

    SAC-X 是基于从头开始学习复杂的任务这种想法,即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力,为智能体提供与简单技能相对应的内在目标(
    发表于 03-09 12:51 1310次阅读

    DeepMind提出强化学习新算法,教智能体从零学控制

    3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的
    的头像 发表于 03-17 09:12 3818次阅读

    【重磅】DeepMind发布通用强化学习范式,自主机器人可学会任何任务

    SAC-X是一种通用的强化学习方法,未来可以应用于机器人以外的更广泛领域
    的头像 发表于 03-19 14:45 1913次阅读

    DeepMind开发了PopArt,解决了不同游戏奖励机制规范化的问题

    我们将PopArt应用于Importance-weighted Actor-Learner Architecture (IMPALA),这是DeepMind最流行的深度强化学习智能体之一。在实验中
    的头像 发表于 09-16 10:04 3176次阅读

    谷歌、DeepMind重磅推出PlaNet 强化学习新突破

    Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet),这是一个纯粹基于模型的智能体,能从图像输入中学习世界模型,完成多项规划任务,数据效率平均提升50倍,强化学习
    的头像 发表于 02-17 09:30 3354次阅读
    谷歌、<b class='flag-5'>DeepMind</b>重磅推出PlaNet 强化<b class='flag-5'>学习</b>新突破

    无需数学就能写AI,MIT提出AI专用编程语言Gen

    无需数学就能写AI,MIT提出AI专用编程语言Gen,为使AI算法开发初学者更容易进行编程设计,MIT的研究人员开发出一种名为“Gen.”的新型概率编程系统,无需处理方程式或手动编写高
    发表于 07-01 09:58 1448次阅读

    DeepMind的最新AI无需知晓规则就能掌握游戏

    2016年,Alphabet的DeepMind与AlphaGo一起问世,该AI一直领先于人类最佳Go players。一年后,该子公司继续完善其工作,创建了AlphaGo Zero。 在
    的头像 发表于 01-05 09:19 1515次阅读

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏
    的头像 发表于 06-11 21:40 695次阅读
    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队<b class='flag-5'>提出</b>强化<b class='flag-5'>学习</b>专用<b class='flag-5'>稀疏</b>训练框架RLx2

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。 从中不难发现,随着大模型越来越成为人工智能发展的主流趋势,DeepMind 在智能体的开发中不断尝试将强化
    的头像 发表于 07-24 16:55 543次阅读
    语言模型做<b class='flag-5'>先验</b>,统一强化<b class='flag-5'>学习</b>智能体,<b class='flag-5'>DeepMind</b>选择走这条通用AI之路