基于TensorFlow的开源强化学习框架 Dopamine-电子发烧友网

强化学习是一种非常重要 AI 技术，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度 Q 网络（DQN）的核心部分，它可以在多个 workers 之间分步学习，例如，在 Atari 2600 游戏中实现“超人”性能。

麻烦的是，强化学习框架需要花费大量时间来掌握一个目标，而且框架往往是不灵活和不总是稳定的。

但不用担心，Google 近日发布了一个替代方案：基于 TensorFlow 的开源强化学习框架 Dopamine（多巴胺）。

Google 的博文中提到，这个基于 Tensorflow 的强化学习框架，旨在为 RL 的研究人员提供灵活性，稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发，以及反映神经科学与强化学习研究之间强烈的历史联系，该平台旨在实现可推动激进发现的思辨研究（speculative research）。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布，谷歌还推出了一个网站（https://google.github.io/dopamine/baselines/plots.html），允许开发人员快速可视化多个智能体的训练运行情况。他们希望，这一框架的灵活性和易用性将使研究人员能积极尝试新的想法，不管是渐进式还是激进式的想法。

以下为 Google 博客详细内容，AI科技大本营编译：

▌引入灵活和可重复的强化学习研究的新框架

强化学习（RL）研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ，AlphaGo ，AlphaGo Zero 以及 Open AI Five。

具体而言，在 DQN 中引入 replay memories 可以利用以前的智能体经验，大规模的分布式训练可以在多个 workers 之间分配学习过程，分布式方法允许智能体模拟完整的分布过程，而不仅仅是模拟它们期望值，以学习更完整的图景。这种类型的进展很重要，因为出现这些进步的算法还适用于其他领域，例如机器人技术。

通常，这种进步都来自于快速迭代设计（通常没有明确的方向），以及颠覆既定方法的结构。然而，大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法，并因此探索可能没有直接明显益处的新研究方向。此外，从现有框架再现结果通常太耗时，这可能导致科学的再现性问题。

今天，我们推出了一个新的基于 Tensorflow 的框架，旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发，以及反映神经科学与强化学习研究之间强烈的历史联系，该平台旨在实现可推动激进发现的思辨研究（speculative research）。此版本还包括一组阐明如何使用整个框架的 colabs。

▌易用性

清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码（大约 15 个Python 文件），并且有详细记录。这是通过专注于 Arcade 学习环境（一个成熟的，易于理解的基准）和四个基于 value 的智能体来实现的：DQN，C51，一个精心策划的 Rainbow 智能体的简化版本，以及隐式分位数网络（Implicit Quantile Network）智能体，这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况，并积极尝试新的想法。

▌可重复性

我们对重复性在强化学习研究中的重要性特别敏感。为此，我们为代码提供完整的测试覆盖率，这些测试也可作为其他文档形式。此外，我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

▌基准测试

对于新的研究人员来说，能够根据既定方法快速对其想法进行基准测试非常重要。因此，我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据，可用作 Python pickle 文件（用于使用我们框架训练的智能体）和 JSON 数据文件（用于与受过其他框架训练的智能体进行比较）；我们还提供了一个网站，你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况，这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代，其中每次迭代是 100 万个游戏帧（4.5 小时的实时游戏）；y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络，原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法，包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究，并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能体

智能体

+关注

关注
1

文章
126

浏览量
10564
强化学习

强化学习

+关注

关注
4

文章
265

浏览量
11204
tensorflow

tensorflow

+关注

关注
13

文章
328

浏览量
60482

原文标题：Google发布“多巴胺”开源强化学习框架，三大特性全满足

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1393次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

深度学习框架TensorFlow&TensorFlow-GPU详解

TensorFlow&TensorFlow-GPU：深度学习框架TensorFlow&TensorFlo

发表于 12-25 17:21

反向强化学习的思路

强化学习的另一种策略（二）

发表于 04-03 12:10

TensorFlow是什么

和 TPU（Tensor Processing Units）。Project Magenta 能够使用强化学习模型生成音乐，运用了 TensorFlow。澳大利亚海洋生物学家使用了 TensorFlow

发表于 07-22 10:14

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

发表于 01-10 13:42

TensorFlow实战之深度学习框架的对比

Google近日发布了TensorFlow 1.0候选版，这第一个稳定版将是深度学习框架发展中的里程碑的一步。自TensorFlow于2015年底正式

发表于 11-16 11:52 •4547次阅读

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深

发表于 06-29 18:36 •2.8w次阅读

TensorFlow的框架结构解析

TensorFlow是谷歌的第二代开源的人工智能学习系统，是用来实现神经网络的内置框架学习软件库。目前，

发表于 04-04 14:39 •7095次阅读

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督

发表于 05-30 06:53 •1400次阅读

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动来

发表于 07-15 10:56 •1.8w次阅读

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人

发表于 08-31 09:20 •3658次阅读

Facebook开源Horizon主要是为了推进AI强化学习的发展

11月1日，Facebook开源了Horizon，一个由Facebook的AI研究人员、推荐系统专家和工程师共同搭建的强化学习平台，其框架的构建工作开始于两年半前，在过去一年中一直被Facebook内部使用。

发表于 11-05 09:34 •830次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

深度学习框架tensorflow介绍

深度学习框架tensorflow介绍深度学习框架TensorFlow简介深度

发表于 08-17 16:11 •2417次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器

发表于 11-05 17:34 •209次阅读