强化学习新方法，机器人究竟是怎么学习新动作的呢？-电子发烧友网

波士顿动力人形机器人的后空翻技能亮相时，惊艳了全球群众。

这么复杂的动作，不用说现实世界中的机器人，就算是在模拟器里，学起来也非常的难。

现在，加州大学伯克利分校和英属哥伦比亚大学最新研究的一种新方法，能教生活在模拟器中的机器人通过模仿人类，学会武打、跑酷、杂技等复杂技能。

后空翻回旋踢什么的，轻轻松松搞定~

（下文还会提到很多次“机器人”，基本都是生活在模拟器里的这种）

让机器人、动画和游戏角色能灵活流畅地运动，是计算机图形学、强化学习、机器人等等领域的研究者都在追求的目标。

不同方法各有所长，当然也各有所短。

用强化学习方法教机器人（模拟器里的智能体），能学会的动作花样繁多，细致到拿东西、豪放到奔跑都能搞定，还可以给机器人设置一个明确的目的。但是，总难免上演一些羞耻或惊喜play。

而动作捕捉技术，能让机器人做出和真人一模一样，自然流畅毫无违和感的动作。但是，活学活用是不能指望的，每个动作、每个形态的机器人，都是需要单独训练的。

伯克利的科学家们取这两个领域所长，创造了一种新方法DeepMimic。这种方法既有深度学习模型的通用性，可以覆盖更多的动作类型和机器人形态，动作的自然流畅程度也可以媲美动作捕捉。

用这种新方法，机器人究竟是怎么学习新动作的呢？

简单来说是通过看动作片段来学习，人类的动作捕捉数据就是个很好的学习资料。给机器人展示一个动作样本，比如说下图这个侧空翻，右侧就是供机器人学习的示范样本。

参与这项研究的科学家们将示范动作分解成一个q^0,q^1,…,q^T的序列，q^T表示的是在机器人在t时间步的目标动作。而这个机器人学习的目标，就是要尽可能消灭t时间步的实际动作qT和目标动作q^T的差距。

机器人勤劳地不停练习练习练习，直到自己的动作不再羞耻，灵活性和仿真度能够媲美演示视频，像上图左侧那样。

指导这个练习过程的，是这样一个奖励函数：

除了空翻，用这种方法教出来的机器人还能学到中西舞蹈、南拳北腿、跑步打把势甚至鲤鱼打挺：

对着完美的动作捕捉样本，再copy一遍，有什么意思？这项研究当然不止于模仿。DeepMimic能让机器人通过模仿学会动作之后，再活学活用起来。

比如当一个机器人学会了投球，就可以去执行一个演示样本中没有的任务。我们可以在模拟器中，指定一个目标让它来投：

训练的机器人，也可以长得和演示样本不太一样。比如说还是用前边的后空翻样本，可以训练一个模拟波士顿动力Altas的机器人：

甚至不是人形的机器人，也可以用人形样本来训练。比如说这头霸王龙，就是跟人形样本学习的走路。在论文的主页上，他们还展示了更多的例子，甚至还有狮子和龙~

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
210

文章
28146

浏览量
206043
深度学习

深度学习

+关注

关注
73

文章
5485

浏览量
120933

原文标题：强化学习新方法，让后空翻回旋踢再也难不倒机器人 | 伯克利论文

文章出处：【微信号：tjrobot，微信公众号：天津机器人】欢迎添加关注！文章转载请注明出处。

深度强化学习实战

网络GAN5、迁移学习TL报名联系方式联系人：李连杰（老师）手机：*** QQ： 1503177939深度学习之家QQ群群号：372448770（加群备注：李连杰老师）强化学习课程QQ

发表于 01-10 13:42

一次性模仿学习新算法让AI现在可以快速学习新的任务

该方法基于所谓的一次性模仿学习，这是一种OpenAI开发的技术，允许软件引导机器人仅使用一个示例来模拟身体动作。 AI现在可以通过模仿快速学习新

发表于 09-22 14:25 •0次下载

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人

发表于 01-09 14:43 •0次下载

跟人一样聪明的机器人，观察一次就可以模仿人类的动作

该机器人由加州大学伯克利分校的工程师开发，通过观察视频中的人员执行动作，可以快速学习新动作。

发表于 07-06 15:55 •2984次阅读

让机器人通过一段只有一个人的视频来模仿学习

人类和动物在学习新行为时，大部分只需要观察一次就能学会，然而想让机器人学习就没那么容易了。随着计算机视觉的发展，目前的技术能让机器人依靠人体姿势检测系统，模仿人类的动作进行

发表于 02-07 14:25 •6129次阅读

【重磅】DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

SAC-X是一种通用的强化学习方法，未来可以应用于机器人以外的更广泛领域

发表于 03-19 14:45 •1874次阅读

强化学习究竟是什么？它与机器学习技术有什么联系？

Q-learning和SARSA是两种最常见的不理解环境强化学习算法，这两者的探索原理不同，但是开发原理是相似的。Q-learning是一种离线学习算法，智能体需要从另一项方案中学习到行为a*的价值

发表于 04-15 10:32 •1.4w次阅读

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督

发表于 05-30 06:53 •1399次阅读

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

发表于 02-17 09:30 •3302次阅读

如何训练机器人学习新技能

10月27日消息，据外媒报道，约翰斯霍普金斯大学博士生安德鲁洪特（Andrew Hundt）近日发布一篇新论文，指出应通过正强化法训练机器人学习新技能。

发表于 10-28 10:16 •2363次阅读

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

发表于 11-06 15:33 •1712次阅读

当机器人遇见强化学习，会碰出怎样的火花？

当机器人遇见强化学习，会碰出怎样的火花？一名叫 Cassie 的机器人，给出了生动演绎。最近，24 岁的中国南昌小伙李钟毓和其所在团队，用强化学习教 Cassie 走路，目前它已

发表于 04-13 09:35 •2400次阅读

串口究竟是什么呢？

串口通讯是我们在电力电子设计中使用频率比较高的一种通讯协议，那串口究竟是什么呢？

发表于 04-12 09:40 •1.9w次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源

发表于 11-05 17:34 •209次阅读

搜索历史

强化学习新方法，机器人究竟是怎么学习新动作的呢？

评论

图解：IGBT究竟是什么？

深度强化学习实战

一次性模仿学习新算法让AI现在可以快速学习新的任务

基于LCS和LS-SVM的多机器人强化学习

跟人一样聪明的机器人，观察一次就可以模仿人类的动作

让机器人通过一段只有一个人的视频来模仿学习

【重磅】DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

强化学习究竟是什么？它与机器学习技术有什么联系？

人工智能机器学习之强化学习

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

如何训练机器人学习新技能

一文详谈机器学习的强化学习

当机器人遇见强化学习，会碰出怎样的火花？

串口究竟是什么呢？

如何使用 PyTorch 进行强化学习