让机器人通过观察人类的操作来学会操作新的物体-电子发烧友网

模仿能力是智能重要的组成部分，人和动物常常通过观察其他个体来学习新的技能。那么我们能不能将这种能力赋予机器人呢？是否可以像下图一样，让机器人通过观察人类的操作来学会操作新的物体呢？

机器人在观察人类行为后学会了将桃子放到了红色的碗里

如果拥有这样的能力，将极大地简化部署机器人完成新任务的过程。我们只需要展示给机器人需要进行的任务，而无须进行遥操作或设计复杂的奖励函数。很多工作探索了机器人可以从本身的专业经验中很好的学习，这样的学习方式称为模仿学习。

然而基于视觉技能的模仿学习需要大量专业的示范数据。例如利用原始像素输入来靠近单一固定物体的任务就需要200次表现良好的示范才能达到。如果只提供一个示范样本，要完成这样的模仿对于机器人来说十分困难。

除此之外，如果机器人需要模仿人类的示范的特定操作技能还需要面临额外的挑战。除了机械臂与人类手臂的构造差异外，在人类示范和机器人示范之间建立起正确的对应关系是一件十分困难的事情。这并不仅仅是对运动简单的跟踪和重映射，其中最主要的部分在于运动对环境中物体的影响，并且我们需要建立一个以这种相互作用为中心的对应关系。

为了使得机器人可以模仿视频中人类的技能，可以结合一系列先验经验而不是从零开始学习。通过结合先前的经验，机器人可以迅速学会对于新物体的操作而在域的移动中保持不变性，就像在观察了人类的示范后机器人可以在不同背景和视角下学会操纵物体。研究人员的目标是通过从示范数据中学会学习，来实现少样本的模仿和域不变性。这种被称为元学习的技术是赋予机器人通过观察模仿人类的关键。

One-Shot模仿学习

那么如何利用元学习来帮助机器人快速的适应不同的物体呢？研究人员们采用结合元学习和模仿学习的方式来实现一次模仿学习。关键的想法在于给机器人提供某一特定任务的当个示范，机器人就能迅速的识别任务，并在不同的情形下成功解决。早先的一个工作通过从成千上万个示范中学会学习来实现一次学习，并给出了优秀的结果。如果我们希望一个实际的机器人能够模仿人类并操纵各种各样的新物体，就需要开发一个能从视频数据集的示范中学会学习的系统，而这些数据可以在真实环境中收集。接下来的部分首先讨论了通过遥操作收集的单个示范来实现的视觉模仿，随后展示了这种方法是如何拓展到向人类视频中学习的范畴中去的。

One-Shot视觉模仿学习

为了让机器人可以从视频中学习，研究人员将模仿学习与一种高效的元学习算法（未知模型元学习，MAML）结合起来。通过标准的神经网络来作为策略表示，在每个时间步长将机器人输入的图像ot和状态信息xt（例如关节的角度和速度）映射到了机器人的行动上at（比如夹爪的线速度和角速度）。下图展示了算法三个主要的步骤。

首先人们对于不同任务(操作不同物体)收集了大量操作示范构建了大型数据集；随后利用MAML学习了策略参数θ的初始状态。随后提供某一特定物体的示范时，我们可以基于这一示范来运行梯度下降法来寻找对于这一物体的一般化策略θ’。当使用遥操作示范时，策略可以通过比较预测行动πθ(ot)和专家行为a*t来更新策略：

随后通过促使策略πθ’的值来匹配同一物体其他示例的行为，实现对于参数θ的更新。在元训练后，我们就可以利用这一任务的单一示范来计算梯度步骤，从而让机器人去操纵完全没有见过的物体了。这一步骤称为元测试。

策略架构

由于这一方法没有为元学习和优化引入额外的参数，具有很好的数据效率。因此它可以通过观察遥操作机器人示例实现多样化的控制任务，例如推动和放置等任务。

将物体放到新的容器中去，左图是示范右图是学习后的策略。

通过域适应性元学习，机器人观察人类实现一次模仿

上述方法依然是依赖于遥操作机器人的示范而不是人类的示范。为了达到从人类示范学习的目标，研究人员们在上述算法的基础上设计了一种域适应的一次模仿方法。收集了机器人和人执行不同任务的示范，随后通过人类示范来计算策略更新，并用同一任务的机器人示范来评价更新后的策略，算法架构图如下所示：

但人类示范只是在执行任务时的视频而已，并不包含对应的行为，无法通过前面的公式计算出损失并更新策略。在这里，研究人员另辟蹊径的提出了用深度学习的方法学习出一个帮助策略更新的损失函数，这个损失函数无需行动作为标记。直接学习损失函数背后的思想来自于，我们可以通过无标签的数据得到损失函数，同时给出正确的梯度用于策略更新，并最终的到一个成功的策略。

策略架构

这看起来像是不可能完成的任务，但要记住的是元训练过程依旧通过梯度步骤后机器人行为监督着策略的更新。学习损失函数可以被理解为通过抽取场景中适宜的视觉线索来更新参数从而修正策略。所以元训练的行为输出将会产生正确的行动。研究人员利用Temporal卷积来实现了损失函数的学习，可以抽取视频示范中的顺时信息。

研究人员将这一方法归为具有域适应性的元学习算法，这是因为它可以通过其他域的数据实现学习，而不是机器人的策略操纵空间。这一方法使得PR2机器人高效的学会了如何推动很多不同的物体到目标位置，而这些物体在元训练的过程中是从来没有看到过的。

同时也能通过观察人类对于每个物体的操纵，实现物体的抓取并将其放置到新的目标容器中去：

同时利用不同背景环境和相机拍摄的人类示范来验证算法的有效性，发现即使相机和背景的变化，算法依旧可以保持良好的表现。

未来工作

目前已经实现了教会机器人通过观看单个视频就能学习操纵新物体，下一步自然是扩大这种方法的规模，不同的任务对应着完全不同的运动和目标，例如使用不同的工具来进行不同的运动。通过考虑潜在任务分布的多样性，研究人员希望这样的模型可以适用于更广泛的任务，帮助机器人在新环境中迅速的建立起策略。同时这里提到的技术并不仅仅限于机器人操纵或控制，模仿学习和元学习可以用于语言和其他序列化决策过程中。通过少数的示例学会模仿是一个未来一个十分有趣的研究方向。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
212

文章
28887

浏览量
209513
神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101528

原文标题：看视频就能学会新技能，伯克利的机器人如何学会模仿人类？

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

不寒而栗：机器人只需看看就能模仿人类

研发了通过观察人类就能够了解自然系统和人工系统运行规律的机器人。通过图灵测试的原理，我们可以探究一个系统是如何工作的。终有一天，新一代的机器人

发表于 09-05 09:12 •822次阅读

扭矩传感器实现机器人敏捷操作

机器人的雏形，未来可以帮助人们完成日常家务或在仓库里搬送物品。对运动顺序至关重要的快速通讯通过EtherCAT 来实现，与此同时，由倍福的 TwinCAT PLC 自动化控制软件实现精细的控制。　　德国

发表于 01-21 17:11

代替人类完成危险性较大实验的双臂机器人——Mahoro

` 由日本自电机巨头安川株式会社和日本国立先进工业技术（AIST）研发一款机器人Mahoro。它可以代替人类成为实验室的操作人员。不像以往的机器人，Mahoro拥有7个关节，这样可以

发表于 01-22 14:42

会物体识别和语音识别的nao机器人

` nao机器人可识别大量物体和自动语音识别，并可通过Choregraphe软件保存物体信息和语音。此后，当它再次看到已保存的物体时或需要与

发表于 02-13 14:09

我与我的机器人

”，可以在小车的基础上添加各种传感器，使得它像我们人类一样躲避障碍物、遇到紧急的事件能够及时的处理。这学期我们开设《AVR单片机与小型机器人制作》这门课，让我有更多的机会接触机器人。虽

发表于 08-05 22:49

震惊！模块细胞机器人！最接近人类的机器人！

模块细胞机器人！最接近人类的机器人！

发表于 01-22 17:55

机器人将取代人类，你觉得呐？

们缺少了感情、思考和生命。但是如果哪天互联网让机器人有了“思维”呢？未知就代表一切都有发生的可能，我们也无法预测如果机器人通过互联网信息的集中会得出

发表于 03-09 18:38

人工智能机器人大战即将开启，机器人世界主导，机器人是否能赋予如人类一般的情感。

让主人公西奥多与萨曼莎很快发现他们如此的投缘，而且存在双向的需求与欲望。　　当科技脱去冰冷的面纱，被赋予高度人性化和活色生香的情趣时，人类与机器人的关系就变得更加微妙。在另一部电影《机械姬》(Ex

发表于 11-22 11:10

人类与机器人有感情产生吗？

`　　之前看到周润发的一部电影里面的一个机器人，让我对机器人有了新的看法。里面的那个机器人表情丰富、机智幽默。　　现在人们疑惑的是人与人工智

发表于 11-10 10:18

人类与人工智能机器人合作的前景

`　　人类工作者如果把人工智能机器人当做合作伙伴，将能获得很大福利。人类不用过于担心人工智能会“砸”了我们的“饭碗”。因为在人与机器的竞争中

发表于 04-16 17:42

桁架机器人操作注意守则

山东康道资讯：桁架机器人操作注意守则！好的桁架机器人守则能让性能不断提高(高速度、高精度、高可靠性、便于操作和维修),机械手控制器系统也跟着向基于PC机的开放型控制器方向发展，便于标准

发表于 09-27 15:54

如何打造出与人类自然交流的机器人？

的有害比喻。这就是为什么我在Mezi的团队将人类心理学和人格特质考虑进去，这两项在我们开发聊天机器人的过程中起到了加强沟通交流的作用。此外，我们对此进行研究，即如何通过在机器人程序

发表于 10-22 06:22

桁架机器人的概念与特点都有哪些？

`力泰科技资讯：在现代化生产线中，越来越讲究的是柔性化生产。机械设备自动化是这个世纪制造业发展的大趋势，机器人产业将是一个阳光产业，未来的世纪是机器人技术极度发展的世纪，人类将从单调繁杂的体力劳动中

发表于 11-30 09:44

让机器人通过一段只有一个人的视频来模仿学习

人类和动物在学习新行为时，大部分只需要观察一次就能学会，然而想让机器人学习就没那么容易了。随着计算机视觉的发展，目前的技术能让

发表于 02-07 14:25 •6287次阅读

未来机器人也可以像人一样进行学习？

您印象中的机器人还仅仅是按照代码指令完成任务吗？其实，通过观察人类行为来进行操作才是机器人的未来

发表于 04-17 10:27 •5150次阅读

搜索历史

让机器人通过观察人类的操作来学会操作新的物体

评论

不寒而栗：机器人只需看看就能模仿人类

扭矩传感器实现机器人敏捷操作

代替人类完成危险性较大实验的双臂机器人——Mahoro

会物体识别和语音识别的nao机器人

我与我的机器人

震惊！模块细胞机器人！最接近人类的机器人！

机器人将取代人类，你觉得呐？

人工智能机器人大战即将开启，机器人世界主导，机器人是否能赋予如人类一般的情感。

人类与机器人有感情产生吗？

人类与人工智能机器人合作的前景

桁架机器人操作注意守则

如何打造出与人类自然交流的机器人？

桁架机器人的概念与特点都有哪些？

让机器人通过一段只有一个人的视频来模仿学习

未来机器人也可以像人一样进行学习？