基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务-电子发烧友网

目前的深度强化学习需要人为地为每一个任务设计奖励函数，当涉及复杂系统时需要很多的人力成本和复杂的工作。如果需要完成更大范围内的更多工作，就需要对每一个新任务进行重复的训练。为了提高学习的效率，伯克利的研究者们提出了一种可以同时对多个不同任务进行学习的算法，无需人工干预。

这一算法可以自动从图像中抽取目标并学习如何达到目标，并实现推物体、抓握和开门等一系列特殊的任务。机器人可以学会自己表示目标、学习如何达到目标，而一切的输入仅仅是来自相机的RGB图像。

· 目标条件下的强化学习

如何描述真实世界的状态和期望的目标是我们需要考虑的首要问题，但对于机器人来说枚举出所有需要注意的物体是不现实的，现实世界中的物体及其数量变化多端、如果要检测他们就需要额外的视觉检测工作。

那么该如何解决这一问题呢？研究人员提出了一种直接利用传感器信息来操作的方法，利用机器人相机的输出来表达世界的状态，同时利用期望状态的图像作为目标输入到机器人中。对于新的任务，只需要为模型提供新的目标图像即可。这种方法同时能拓展到多种复杂的任务，例如可以通过语言和描述来表达状态/目标。（或者可以利用先前提出的方法来优化目标：传送门>>UC Berkeley提出新的时域差分模型策略：从无模型到基于模型的深度强化学习）

强化学习是一种训练主体最大化奖励的学习机制，对于目标条件下的强化学习来说可以将奖励函数设为当前状态与目标状态之间距离的反比函数，那么最大化奖励就对应着最小化与目标函数的距离。

我们可以通过一个基于目标条件下的Q函数来训练策略实现最大化奖励。基于目标条件的Q函数Q(s,a,g)描述的是在当前状态和目标下，当前的行为将产生对主体怎样的结果（奖励）？也就是说在给定状态s、目标g的前提下，我们可以通过优化行为a来实现奖励最大化：

π(s,g) = maxaQ(s,a,g)

基于Q函数来选择最优的行为，可以得到最大化奖励和的策略（在这个例子中便是达到各种不同的目标）。

Q学习得以广泛应用的原因在于它可以不基于策略而仅仅只依赖与s,a,g。那么意味着训练任意策略所收集的数据都可以用来在多个任务上进行训练。基于目标条件的Q学习算法如简图所示：

但上述方法的主要局限在于数据收集。如果能人工生成数据，理论上就可以学习解决不同的任务而无需与真实世界进行交互。但遗憾的是在真实世界中学习精确的模型十分困难，所以通常依赖于采样来获取状态s--行为a--下一个状态s'的训练数据。

但我们换个角度来看，如果可以表达出奖励函数r(s,g), 有一种可以生成目标并计算奖励的机制，我们就可以可回溯的重新标记目标，重新计算奖励。这样的话就可以利用(s,a,s') 数据生成大量的人工数据，这一个过程如下图所示：

最美妙的事情在于可以同时生成多个目标和奖励函数，这就意味着可以学习达到多个目标而无需采集额外的数据，这一简单的改进极大的加速了学习过程。

上面的方法主要基于两个假设：1).知道奖励函数的表达并可以进行操作；2).可以得到目标的采样分布p(g).基于前人的工作，可以方便的设计出目标分布p(g)和奖励函数。

但对于基于视觉的任务来说会出现两个问题：1).由于基于像素的距离可能没有实际意义，模型不知道该使用哪一个奖励函数；2).由于任务的目标是图像的形式，需要知道目标图像的分布p(g)，但人工设计目标图像的分布是一个很复杂的任务。那么研究人员们期望最好的情况就是，主体可以自动地想象出它的目标，并学习出如何达到这一目标。

·基于假想目标的强化学习

为了解决这一问题，研究人员通过学习出图像的表示并利用这些表示来实现条件Q学习，而不是直接利用图像本身来进行强化学习。那么这时候关键的问题就被转换为：这一从图像中学习的表达应该满足什么样的特点？为了计算出语义的奖励，需要一种可以捕捉图像中变量潜在因素的表达，同时这种表达需要很便捷地生成新的目标。

试验中研究人员通过变分自编码器（VAE）来从图像中获取满足这些条件地表示。这种生成模型可以将高维空间中图像转换到低维度地隐空间中去（或者进行相反地变换）。得到的模型可以将图像转换到隐空间中并抽取其中的变量特征，这与人类在真实世界中描述目标的抽象过程很类似。在给定当前图像x和目标图像xg后，模型可将他们转换为隐空间中对应的隐变量z和zg，此时就可以利用隐变量来为强化学习算法描述系统状态和期望目标了。在低维的隐空间中学习Q函数和策略比直接使用图像进行训练要快很多。

将当前图像和目标图像编码到隐空间中，并利用其中的距离来计算奖励。

这同时解决了如何计算强化学习中计算奖励的问题。相较于利用像素误差，可以使用隐空间中与目标的距离来训练主体。在最大化抵达目标概率的同时这一方法可以给出更有效的学习信号。

这一模型的重要性在于主体可以容易的在隐空间中生成目标。（这一生成模型使得隐空间中的采样是可以回溯的：仅仅从VAE的先验中采样）其原因在于：为主体提供了可以设置自身目标的机制，主体从生成模型的隐变量中采样并尝试抵达隐空间中的目标；同时为重采样机制也可用于前述的重标记过程。由于训练的生成模型可以将真实图像编码为先验，从先验的隐变量采样也对应着有意义的隐目标。

主体可以通过模型生成自己的目标，用于探索和目标重标记。

综上所述，对于输入图像的隐空间表示1).捕捉了场景中的隐含因素;2).为优化提供了有效的距离度量;3).提供了有效的目标采样机制，使得这一方法可以直接利用像素输入来实现基于假想的强化学习算法（ Reinforcement Learning with imagined Goals ,RIG)

· 实验

下面研究人员将通过实验来证明这一方法是能简单高效地在合理的时间内在真实世界中训练出机器人策略。实验分为两个任务，分别是基于目标图像直到机械臂运动到人为指定地位置和将目标推到期望的位置。实验中仅仅通过84*84的RGB图像来训练，而没有关节角度和位置信息。

机器人首先学习到如何在隐含空间内学习出自己的目标，这一阶段可以利用解码器来可视化机器人为自己假想出来的目标。下图上半部分显示了机器人“想象”出的目标位置，而下面图则是实际运行状况。

通过设置自身的目标，机器人就可以在没有人类的干预下自动的训练尝试以抵达目标。需要执行特定的任务时，才需要人为的给定目标图像。由于机器人以及多次练习过如何抵达目标，在下面的图中我们可以看到它已经不需要额外的训练便可以抵达新的目标。

下图是第二个任务，利用RIG来训练机械臂将物体推到指定位置。其中左边是实验装置、右上是目标图像、右下是机器人推动的过程。

通过图像训练策略使得机器人推物体的任务变得容易多了。只需要在上一个任务的基础上加上一张桌子、一个物体、稍微调整相机就可以开始训练了。虽然模型的输入是图像，但这一算法只需要一个小时的时间就可以训练完成抵达特定位置的任务、4.5小时就可以实现将物体推到特定位置的任务（需要与环境交互）,同时达到了比较好的精度。

很多实际使用的强化学习算法需要目标位置的基准状态，然而这却需要引入额外的传感器或训练目标检测算法来实现。与之相比，这里提出的算法仅仅依赖于RGB相机，并可以直接输入图像完成训练过程。

· 未来研究方向

通过前文描述的方法，可以利用直接输入的图片训练出真实世界的机器人策略，简单高效地实现不同的任务。基于这一结果，可以开启很多令人激动地研究领域。这一研究不仅限于利用图像作为强化学习的目标，同时还可以广泛应用于语言和描述等不同的目标表达中。同时，可以探索如何利用更本质的方式来选择目标以实现更好的自动学习。如果使用内在动机的概念与上文提出的策略结合，可以引导策略进行更快的学习。

另一个可能方向是训练模型能够处理动力学的情况。对环境动力学进行编码可以使得隐含空间更加适合强化学习，加速学习的过程。最后，有很多机器人任务的状态很难被传感器所捕捉，但利用基于假想目标的学习就可以处理诸如形变物体的抓取、目标数量变化这样复杂的问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28759

浏览量
208967
算法

算法

+关注

关注
23

文章
4633

浏览量
93489
强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11314

原文标题：伯克利研究人员提出基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

，一次生成深度信息。自主机器人定位任务的本质是对机器人自身状态的估计问题，包括位置，朝向，速度等问题。路径规划旨在找到从起点到目标区域的路径，确保路径的可行性和最优性。路径规划方法

发表于 01-04 19:22

基于深度学习技术的智能机器人

”特征的算法，同时根据学习到的“经验数据”，从而能把图片中的猫都识别出来。基于“深度学习”的智能分类智能机器人就是通过搭载“深度

发表于 05-31 09:36

机器人视觉系统组成及定位算法分析

1.机器人视觉机器人研究的核心就是：导航定位、路径规划、避障、多传感器融合。定位技术有几种，不关心，只关心视觉的。视觉技术用到“眼睛”

发表于 06-08 08:30

机器人视觉与机器视觉有什么不一样？

的知识，来判定这些零件是不是不良品。某种程度上来说，你可以认为机器视觉是计算机视觉的孩子，因为它使用计算机视觉和

发表于 08-28 10:48

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

发表于 01-10 13:42

四足机器人的机构设计

四足机器人属于复杂机电系统，需要综合生物、机械、电子、控制等学科内容，具体涉及仿生机构设计、灵巧运动机构设计、高性能驱动器制造，行走稳定性控制、强化学习等在内的多个研究方向。其中，机构设计是保障四足

发表于 09-15 06:54

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人

发表于 01-09 14:43 •0次下载

【重磅】DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

SAC-X是一种通用的强化学习方法，未来可以应用于机器人以外的更广泛领域

发表于 03-19 14:45 •1973次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.2w次阅读

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

发表于 11-06 15:33 •1793次阅读

一种基于多智能体协同强化学习的多目标追踪方法

矩阵对其进行求解得到多个追踪智能体的任务分配情况，并以缩短目标智能体的追踪路径为优化目标进行任务分工，同

发表于 03-17 11:08 •20次下载

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种

发表于 04-08 11:41 •11次下载

当机器人遇见强化学习，会碰出怎样的火花？

当机器人遇见强化学习，会碰出怎样的火花？一名叫 Cassie 的机器人，给出了生动演绎。最近，24 岁的中国南昌小伙李钟毓和其所在团队，用强化学习教 Cassie 走路，目前它已

发表于 04-13 09:35 •2508次阅读

基于深度学习的机器人目标识别和跟踪

机器人邻域都有涉及。机器人视觉也是当下研究生的一个大热门，其包含机器人对目标环境对象的视觉信息处

发表于 08-02 12:07 •1729次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化

发表于 07-19 14:35 •0次下载

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务

评论