谷歌最近提出一种新的强化学习算法：模拟策略学习 (SimPLe)-电子发烧友网

谷歌最近提出一种新的强化学习算法：模拟策略学习 (SimPLe) ，使用游戏模型来学习选择动作的策略，在两款Atari游戏中获得了最高分数，并且效率比以前的最先进方法高出2倍以上。

深度强化学习(RL)技术可用于从视觉输入中学习复杂任务的策略，并已成功地应用于经典的Atari 2600游戏。最近在这一领域的工作表明，即使在具有挑战性的探索体系中，例如《蒙特祖玛的复仇》游戏，AI也可以获得超越人类的表现。

然而，许多最先进的方法都有的一个限制是，它们需要与游戏环境进行大量的交互，通常比人类学习如何玩好游戏所需要的交互要多得多。

为什么人类能更有效地学习这些任务？一个可能的假设是，他们能够预测自己行为的影响，从而隐式地学习了一个关于哪些动作序列将导致理想结果的模型。

这种一般性的想法——构建一个所谓的游戏模型，并使用它来学习选择行动的良好策略——是基于模型的强化学习(model-based reinforcement learning, MBRL)的主要前提。

Google的研究人员最近提出一种新的MBRL算法——模拟策略学习(Simulated Policy Learning, SimPLe)，使用游戏模型来学习选择动作的质量策略。

SimPLe比当前最先进的技术更高效，并且仅使用了~100K与游戏的交互即可显示出有竞争力的结果(相当于一个人约2小时的实时玩游戏)。

研究人员在论文“Model-Based Reinforcement Learning for Atari”中描述了该算法，并已将代码作为tensor2tensor开源库的一部分开源。该版本包含一个预训练的世界模型，可以使用简单的命令行运行，并且可以使用类似于Atari的界面播放。

学习一个SimPLe世界模型

SimPLe背后的想法是在学习游戏行为的世界模型和在模拟游戏环境中使用该模型优化策略(使用model-free强化学习)之间进行交替。该算法的基本原理已经在Sutton的“Dyna, an integrated architecture for learning, planning, and reac ting”中很好地建立起来，并且已经应用到许多最近的基于模型的强化学习方法中。

SimPLe的主循环。1) agent开始与真实环境交互。2)收集的观测结果用于更新当前的世界模型。3) agent通过学习世界模型更新策略。

为了训练一个玩Atari游戏的模型，我们首先需要在像素空间中生成合理的未来版本。换句话说，我们通过将一系列已经观察到的帧和给到游戏的命令(如“左”、“右”等)作为输入，来试图预测下一帧会是什么样子。在观察空间中训练一个世界模型的一个重要原因在于，它实际上是一种自我监督的形式，在我们的例子中，观察(像素)形成了一个密集且丰富的监督信号。

如果成功地训练了这样一个模型(如一个视频预测器)，则基本上有了一个游戏环境的学习模拟器(learned simulator)，可用于生成用来训练良好策略的轨迹，即选择一系列使智能体的长期奖励最大化的动作。

换句话说，我们不是在真实游戏的操作序列上训练策略，这在实践和计算上都非常密集，而是在来自世界模型/学习模拟器的序列之上训练策略。

我们的世界模型是一个前馈卷积网络，它接收4个帧，并预测下一帧以及奖励(见上图)。然而，在Atari游戏的情况下，只考虑4帧的视界的话，未来是非确定性的。例如，游戏中的暂停时间就已经超过四帧，比如在《乒乓球》(Pong)游戏中，当球掉出框时，可能会导致模型无法成功预测后续的帧。我们使用一种新的视频模型架构来处理诸如此类的随机性问题，在这种情况下能做得更好。

当SimPle模型应用于《成龙踢馆》(Kung Fu Master)游戏时，可以看到一个由随机性引起的问题的例子。在动画中，左边是模型的输出，中间是groundtruth，右边是两者之间的像素差异。在这里，模型的预测由于产生了不同数量的对手而偏离了真实游戏。

在每次迭代中，在训练好世界模型之后，我们使用这个learned simulator来生成用于使用近似策略优化(PPO)算法改进游戏策略的rollouts(即动作、观察和结果的样本序列)。

SimPLe工作的一个重要细节是，rollouts的采样是从实际数据集帧开始的。由于预测错误通常会随着时间的推移而增加，使长期预测变得非常困难，因此SimPLe只使用中等长度的rollouts。幸运的是，PPO算法也可以从其内部价值函数中学习动作和奖励之间的长期影响，因此有限长度的rollouts对于像《Freeway》这样奖励稀疏的游戏来说也是足够的。

SimPLe的效率：比其他方法高2倍以上

衡量成功的一个标准是证明该模型是高效的。为此，我们在与环境进行了100K次交互之后，评估了我们的策略输出，这相当于一个人玩了大约两个小时的实时游戏。

我们将SimPLe方法与两种最先进的model-free RL方法：Rainbow和PPO，进行了比较。在大多数情况下，SimPLe方法的采样效率比其他方法高出两倍以上。

和我们SimPLe方法取得的得分匹配的话，两种model-free算法所需的交互次数(左- Rainbow;右-PPO)。红线表示我们的方法使用的交互次数。

SimPLe的成功：2款游戏获得最高分

SimPLe方法的一个令人兴奋的结果是，对于Pong和Freeway这两款游戏，在模拟环境中训练的智能体能够获得最高分数。下面是智能体使用为Pong游戏学习的模型玩游戏的视频:

对于Freeway、Pong和Breakout这3款游戏，SimPLe可以生成50步以内的近乎完美的像素预测，如下图所示。

SimPLe可以在Breakout(上图)和Freeway(下图)生成几乎完美的像素预测。在每个动画中，左边是模型的输出，中间是groundtruth，右边是两者之间的像素差异。

SimPLe的局限

SimPLe的预测并不总是正确的。最常见的失败是由于世界模型没有准确地捕获或预测小但高度相关的对象。

例如:(1)在《Atlantis》和《Battlezone》游戏中，子弹是如此之小，以至于它们往往会消失不见；(2)《Private Eye》游戏中，agent穿越不同的场景，从一个场景传送到另一个场景。我们发现，我们的模型通常很难捕捉到如此巨大的全局变化。

在《Battlezone》中，我们发现模型很难预测小但高度相关的部分，比如子弹。

结论

model-based的强化学习方法的主要前景是在交互要么成本高昂、速度缓慢，要么需要人工标记的环境中，比如许多机器人任务。在这样的环境中，一个learned simulator能够更好地理解智能体的环境，并能够为执行多任务强化学习提供新的、更好、更快的方法。

虽然SimPLe还没有达到标准的model-free RL方法的性能，但它的效率要高很多。我们期望未来的工作能够进一步提高model-based的技术的性能。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6149

浏览量
105243
算法

算法

+关注

关注
23

文章
4606

浏览量
92763
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11234

原文标题：谷歌提出强化学习新算法SimPLe，模拟策略学习效率提高2倍

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

领域的研究与发展。令人瞩目的是，边塞科技的创始人吴翼已正式加入该实验室，并担任首席科学家一职。吴翼在其个人社交平台上对这一变动进行了回应。他表示，自己最近接受了蚂蚁集团的邀请，负责大模型强化

发表于 11-22 11:14 •535次阅读

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习

发表于 11-15 09:19 •387次阅读

一种基于深度学习的二维拉曼光谱算法

近日，天津大学精密仪器与光电子工程学院的光子芯片实验室提出了一种基于深度学习的二维拉曼光谱算法，成果以“Rapid and accurate bacteria identificati

发表于 11-07 09:08 •158次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是

发表于 11-05 17:34 •258次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度学习是

发表于 10-23 15:25 •522次阅读

【「大模型时代的基础架构」阅读体验】+ 第一、二章学习感受

常用的机器学习算法，重点剖析了一元线性回归算法，由此引出机器学习算法的运算特征，此后分别描述了使

发表于 10-10 10:36

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •404次阅读

深度学习的基本原理与核心算法

随着大数据时代的到来，传统机器学习方法在处理复杂模式上的局限性日益凸显。深度学习（Deep Learning）作为一种新兴的人工智能技术，以其强大的非线性表达能力和自学习能力，在图像识

发表于 07-04 11:44 •1820次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的机器学习算法

发表于 07-02 11:25 •914次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计

发表于 06-27 08:27 •1618次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习

发表于 06-05 08:27 •337次阅读

谷歌提出大规模ICL方法

谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL（In-Context Learning）

发表于 05-14 14:17 •343次阅读

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的

发表于 02-20 09:55 •1.3w次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度

发表于 02-07 00:07 •5710次阅读

一种基于表征工程的生成式语言大模型人类偏好对齐策略

最近复旦大学自然语言处理组郑骁庆和黄萱菁团队提出了基于表征工程（Representation Engineering）的生成式语言大模型人类偏好对齐方法RAHF（如图1所示），作为基于人类反馈的强化学习

发表于 01-03 14:25 •544次阅读