谷歌、DeepMind重磅推出PlaNet 强化学习新突破-电子发烧友网

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

通过强化学习 (RL)，对 AI 智能体如何随着时间的推移提高决策能力的研究进展迅速。

对于强化学习，智能体在选择动作 (例如，运动命令) 时会观察一系列感官输入(例如，相机图像)，并且有时会因为达成指定目标而获得奖励。

RL 的无模型方法 (Model-free) 旨在通过感官观察直接预测良好的行为，这种方法使 DeepMind 的 DQN 能够玩雅达利游戏，使其他智能体能够控制机器人。

然而，这是一种黑盒方法，通常需要经过数周的模拟交互才能通过反复试验来学习，这限制了它在实践中的有效性。

相反，基于模型的 RL 方法 (Model-basedRL) 试图让智能体了解整个世界的行为。这种方法不是直接将观察结果映射到行动，而是允许 agent 明确地提前计划，通过 “想象” 其长期结果来更仔细地选择行动。

Model-based 的方法已经取得了巨大的成功，包括 AlphaGo，它设想在已知游戏规则的虚拟棋盘上进行一系列的移动。然而，要在未知环境中利用规划(例如仅将像素作为输入来控制机器人)，智能体必须从经验中学习规则或动态。

由于这种动态模型原则上允许更高的效率和自然的多任务学习，因此创建足够精确的模型以成功地进行规划是 RL 的长期目标。

为了推动这项研究挑战的进展，Google AI 与 DeepMind 合作，提出了深度规划网络 (Deep Planning Network, PlaNet)，该智能体仅从图像输入中学习世界模型 (world model)，并成功地利用它进行规划。

PlaNet 解决了各种基于图像的控制任务，在最终性能上可与先进的 model-free agent 竞争，同时平均数据效率提高了 5000%。研究团队将发布源代码供研究社区使用。

在 2000 次的尝试中，PlaNet 智能体学习解决了各种连续控制任务。以前的没有学习环境模型的智能体通常需要多 50 倍的尝试次数才能达到类似的性能。

PlaNet 的工作原理

简而言之，PlaNet 学习了给定图像输入的动态模型 (dynamics model)，并有效地利用该模型进行规划，以收集新的经验。

与以前的图像规划方法不同，我们依赖于隐藏状态或潜在状态的紧凑序列。这被称为latent dynamics model：我们不是直接从一个图像到下一个图像地预测，而是预测未来的潜在状态。然后从相应的潜在状态生成每一步的图像和奖励。

通过这种方式压缩图像，agent 可以自动学习更抽象的表示，例如对象的位置和速度，这样就可以更容易地向前预测，而不需要沿途生成图像。

Learned Latent Dynamics Model：在 latent dynamics 模型中，利用编码器网络(灰色梯形) 将输入图像的信息集成到隐藏状态(绿色) 中。然后将隐藏状态向前投影，以预测未来的图像(蓝色梯形) 和奖励(蓝色矩形)。

为了学习一个精确的 latent dynamics 模型，我们提出了：

循环状态空间模型 (Recurrent State Space Model)：一种具有确定性和随机性成分的 latent dynamics 模型，允许根据鲁棒规划的需要预测各种可能的未来，同时记住多个时间步长的信息。我们的实验表明这两个组件对于提高规划性能是至关重要的。

潜在超调目标 (Latent Overshooting Objective)：我们通过在潜在空间中强制 one-step 和 multi-step 预测之间的一致性，将 latent dynamics 模型的标准训练目标推广到训练多步预测。这产生了一个快速和有效的目标，可以改善长期预测，并与任何潜在序列模型兼容。

虽然预测未来的图像允许我们教授模型，但编码和解码图像 (上图中的梯形) 需要大量的计算，这会减慢智能体的 planning 过程。然而，在紧凑的潜在状态空间中进行 planning 是很快的，因为我们只需要预测未来的 rewards 来评估一个动作序列，而不是预测图像。

例如，智能体可以想象球的位置和它到目标的距离在特定的动作中将如何变化，而不需要可视化场景。这允许我们在每次智能体选择一个动作时，将 10000 个想象的动作序列与一个大的 batch size 进行比较。然后执行找到的最佳序列的第一个动作，并在下一步重新规划。

在潜在空间中进行规划：为了进行规划，我们将过去的图像 (灰色梯形) 编码为当前的隐藏状态 (绿色)。这样，我们可以有效地预测多个动作序列的未来奖励。请注意，上图中昂贵的图像解码器 (蓝色梯形) 已经消失了。然后，执行找到的最佳序列的第一个操作 (红色框)。

与我们之前关于世界模型的工作 (https://worldmodels.github.io/) 相比，PlaNet 在没有策略网络的情况下工作 —— 它纯粹通过 planning 来选择行动，因此它可以从模型当下的改进中获益。有关技术细节，请参阅我们的研究论文。

PlaNet vs. Model-Free 方法

我们在连续控制任务上评估了 PlaNet。智能体只被输入图像观察和奖励。我们考虑了具有各种不同挑战的任务：

侧手翻任务：带有一个固定的摄像头，这样推车可以移动到视线之外。因此，智能体必须吸收并记住多个帧的信息。

手指旋转任务：需要预测两个单独的对象，以及它们之间的交互。

猎豹跑步任务：包括难以准确预测的地面接触，要求模型预测多个可能的未来。

杯子接球任务：它只在球被接住时提供一个稀疏的奖励信号。这要求准确预测很远的未来，并规划一个精确的动作序列。

走路任务：模拟机器人一开始是躺在地上，然后它必须先学会站立，再学习行走。

PlaNet 智能体接受了各种基于图像的控制任务的训练。动图显示了当智能体解决任务时输入的图像。这些任务提出了不同的挑战：部分可观察性、与地面的接触、接球的稀疏奖励，以及控制一个具有挑战性的双足机器人。

这一研究是第一个使用学习模型进行规划，并在基于图像的任务上优于 model-free 方法的案例。

下表将PlaNet与著名的A3C 智能体和 D4PG 智能体进行了比较，后者结合了 model-free RL 的最新进展。这些基线数据来自 DeepMind 控制套件。PlaNet 在所有任务上都明显优于 A3C，最终性能接近 D4PG，同时与环境的交互平均减少了 5000%。

所有任务只需要一个智能体

此外，我们只训练了一个单一的 PlaNet 智能体来解决所有六个任务。

在不知道任务的情况下，智能体被随机放置在不同的环境中，因此它需要通过观察图像来推断任务。

在不改变超参数的情况下，多任务智能体实现了与单个智能体相同的平均性能。虽然在侧手翻任务中学习速度较慢，但在需要探索的具有挑战性的步行任务中，它的学习速度要快得多，最终表现也更好。

在多个任务上训练的 PlaNet 智能体。智能体观察前 5 个帧作为上下文以推断任务和状态，并在给定动作序列的情况下提前准确地预测 50 个步骤。

结论

我们的结果展示了构建自主 RL 智能体的学习动态模型的前景。我们鼓励进一步的研究，集中在学习更困难的任务的精确动态模型，如三维环境和真实的机器人任务。扩大规模的一个可能因素是 TPU 的处理能力。我们对 model-based 强化学习带来的可能性感到兴奋，包括多任务学习、分层规划和使用不确定性估计的主动探索。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6167

浏览量
105354
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11251
DeepMind

DeepMind

+关注

关注
0

文章
130

浏览量
10857

原文标题：一个智能体打天下：谷歌、DeepMind重磅推出PlaNet，数据效率提升50倍

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化学习

发表于 11-22 11:14 •578次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •291次阅读

AI实火！诺贝尔又把化学奖颁给AI大模型

昨天AI教父Geoff Hinton刚获得诺贝尔物理学奖，今天，谷歌DeepMind联合创始人兼首席执行官Demis Hassabis又拿下化学奖! Demis能获得化学奖靠的便是

发表于 10-10 10:38 •227次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现

发表于 09-30 16:16 •424次阅读

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

发表于 07-16 18:29 •581次阅读

<b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>被曝抄袭开源成果，论文还中了顶流会议

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •353次阅读

谷歌提出大规模ICL方法

谷歌DeepMind团队近日取得了一项突破性的研究成果。他们提出了强化和无监督两种新型的ICL（In-Context Learning）学习

发表于 05-14 14:17 •354次阅读

谷歌DeepMind发布人工智能模型AlphaFold最新版本

谷歌DeepMind近日发布了人工智能模型AlphaFold的最新版本——AlphaFold 3，这一革命性的工具将在药物发现和疾病治疗领域发挥巨大作用。

发表于 05-10 11:26 •590次阅读

谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

谷歌DeepMind公司近日重磅推出了一款名为AlphaFold 3的全新药物研发AI模型，这一创新技术将为科学家们提供前所未有的帮助，使他们能更精确地理解疾病机制，进而开发出更高效的

发表于 05-10 09:35 •395次阅读

谷歌DeepMind推出SIMI通用AI智能体

近日，谷歌的DeepMind团队发布了其最新研究成果——SIMI（Scalable Instructable Multiworld Agent），这是一个通用人工智能智能体，能够在多种3D虚拟环境

发表于 03-18 11:39 •956次阅读

谷歌交互世界模型重磅发布

谷歌模型

北京中科同志科技股份有限公司

发布于 :2024年02月28日 09:13:06

谷歌DeepMind推新AI模型Genie，能生成2D游戏平台

据报道，谷歌公司的DeepMind团队近期发布了AI模型Genie，此模型拥有多达110亿个参数，能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。

发表于 02-27 14:53 •777次阅读

谷歌推出AI扩散模型Lumiere

近日，谷歌研究院重磅推出全新AI扩散模型Lumiere，这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构，旨在实现视频生成的一次性完成，同时保证视频的真实性和动作

发表于 02-04 13:49 •1035次阅读

谷歌DeepMind资深AI研究员创办AI Agent创企

近日，刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦，此前曾担任谷歌

发表于 02-04 10:02 •789次阅读

谷歌DeepMind科学家欲建AI初创公司

据知情人士透露，谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。

发表于 01-22 14:41 •491次阅读

搜索历史

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

评论