0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习新方法,机器人究竟是怎么学习新动作的呢?

天津机器人 来源:未知 作者:李倩 2018-04-13 11:00 次阅读

波士顿动力人形机器人的后空翻技能亮相时,惊艳了全球群众。

这么复杂的动作,不用说现实世界中的机器人,就算是在模拟器里,学起来也非常的难。

现在,加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法,能教生活在模拟器中的机器人通过模仿人类,学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的,轻轻松松搞定~

(下文还会提到很多次“机器人”,基本都是生活在模拟器里的这种)

让机器人、动画和游戏角色能灵活流畅地运动,是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长,当然也各有所短。

用强化学习方法教机器人(模拟器里的智能体),能学会的动作花样繁多,细致到拿东西、豪放到奔跑都能搞定,还可以给机器人设置一个明确的目的。但是,总难免上演一些羞耻或惊喜play。

而动作捕捉技术,能让机器人做出和真人一模一样,自然流畅毫无违和感的动作。但是,活学活用是不能指望的,每个动作、每个形态的机器人,都是需要单独训练的。

伯克利的科学家们取这两个领域所长,创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性,可以覆盖更多的动作类型和机器人形态,动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法,机器人究竟是怎么学习新动作的呢?

简单来说是通过看动作片段来学习,人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本,比如说下图这个侧空翻,右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列,q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标,就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习,直到自己的动作不再羞耻,灵活性和仿真度能够媲美演示视频,像上图左侧那样。

指导这个练习过程的,是这样一个奖励函数:

除了空翻,用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺:

对着完美的动作捕捉样本,再copy一遍,有什么意思?这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后,再活学活用起来。

比如当一个机器人学会了投球,就可以去执行一个演示样本中没有的任务。我们可以在模拟器中,指定一个目标让它来投:

训练的机器人,也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本,可以训练一个模拟波士顿动力Altas的机器人:

甚至不是人形的机器人,也可以用人形样本来训练。比如说这头霸王龙,就是跟人形样本学习的走路。在论文的主页上,他们还展示了更多的例子,甚至还有狮子和龙~

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    28146

    浏览量

    206043
  • 深度学习
    +关注

    关注

    73

    文章

    5485

    浏览量

    120933

原文标题:强化学习新方法,让后空翻回旋踢再也难不倒机器人 | 伯克利论文

文章出处:【微信号:tjrobot,微信公众号:天津机器人】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    图解:IGBT究竟是什么?

    图解:IGBT究竟是什么? IGBT究竟是什么?
    发表于 08-10 08:01

    深度强化学习实战

    网络GAN5、迁移学习TL报名联系方式联系:李连杰(老师)手机:*** QQ: 1503177939深度学习之家QQ群群号:372448770(加群备注:李连杰老师)强化学习课程QQ
    发表于 01-10 13:42

    一次性模仿学习新算法让AI现在可以快速学习新的任务

    方法基于所谓的一次性模仿学习,这是一种OpenAI开发的技术,允许软件引导机器人仅使用一个示例来模拟身体动作。 AI现在可以通过模仿快速学习新
    发表于 09-22 14:25 0次下载

    基于LCS和LS-SVM的多机器人强化学习

    本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法,LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互,能更快发现指导多机器人
    发表于 01-09 14:43 0次下载

    跟人一样聪明的机器人,观察一次就可以模仿人类的动作

    机器人由加州大学伯克利分校的工程师开发,通过观察视频中的人员执行动作,可以快速学习新动作
    发表于 07-06 15:55 2984次阅读

    机器人通过一段只有一个的视频来模仿学习

    人类和动物在学习新行为时,大部分只需要观察一次就能学会,然而想让机器人学习就没那么容易了。随着计算机视觉的发展,目前的技术能让机器人依靠人体姿势检测系统,模仿人类的动作进行
    的头像 发表于 02-07 14:25 6129次阅读
    让<b class='flag-5'>机器人</b>通过一段只有一个<b class='flag-5'>人</b>的视频来模仿<b class='flag-5'>学习</b>

    【重磅】DeepMind发布通用强化学习新范式,自主机器人可学会任何任务

    SAC-X是一种通用的强化学习方法,未来可以应用于机器人以外的更广泛领域
    的头像 发表于 03-19 14:45 1874次阅读

    强化学习究竟是什么?它与机器学习技术有什么联系?

    Q-learning和SARSA是两种最常见的不理解环境强化学习算法,这两者的探索原理不同,但是开发原理是相似的。Q-learning是一种离线学习算法,智能体需要从另一项方案中学习到行为a*的价值
    的头像 发表于 04-15 10:32 1.4w次阅读

    人工智能机器学习强化学习

    强化学习是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督
    发表于 05-30 06:53 1399次阅读

    谷歌、DeepMind重磅推出PlaNet 强化学习新突破

    Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet),这是一个纯粹基于模型的智能体,能从图像输入中学习世界模型,完成多项规划任务,数据效率平均提升50倍,强化学习又一突破。
    的头像 发表于 02-17 09:30 3302次阅读
    谷歌、DeepMind重磅推出PlaNet <b class='flag-5'>强化学习新</b>突破

    如何训练机器人学习新技能

    10月27日消息,据外媒报道,约翰斯霍普金斯大学博士生安德鲁洪特(Andrew Hundt) 近日发布一篇新论文,指出应通过正强化法训练机器人学习新技能。
    的头像 发表于 10-28 10:16 2363次阅读

    一文详谈机器学习强化学习

    强化学习属于机器学习中的一个子集,它使代理能够理解在特定环境中执行特定操作的相应结果。目前,相当一部分机器人就在使用强化学习掌握种种新能力。
    发表于 11-06 15:33 1712次阅读

    机器人遇见强化学习,会碰出怎样的火花?

    机器人遇见强化学习,会碰出怎样的火花? 一名叫 Cassie 的机器人,给出了生动演绎。 最近,24 岁的中国南昌小伙李钟毓和其所在团队,用强化学习教 Cassie 走路 ,目前它已
    的头像 发表于 04-13 09:35 2400次阅读
    当<b class='flag-5'>机器人</b>遇见<b class='flag-5'>强化学习</b>,会碰出怎样的火花?

    串口究竟是什么

    串口通讯是我们在电力电子设计中使用频率比较高的一种通讯协议,那串口究竟是什么
    的头像 发表于 04-12 09:40 1.9w次阅读

    如何使用 PyTorch 进行强化学习

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它通过与环境的交互来学习如何做出决策,以最大化累积奖励。PyTorch 是一个流行的开源
    的头像 发表于 11-05 17:34 209次阅读