Reaver在《星际争霸 II》各种小型游戏上与其他AI的性能对比-电子发烧友网

如果说我们的征途是星辰大海，那么星际争霸必定是其中一关。今天，有人在Github开源了他潜心研究一年半的成果，一个新手和资深研究人员都能受益的深度强化学习框架，单机运行速度快、方便调式，支持多种强化学习训练环境。

上周结束的 AI Challenger 星际争霸竞赛，让 AI 挑战星际争霸这个议题又稍稍火了一把。虽然这届冠军使用的仍然是硬编码方法，但从其他解决方案中不难看出，AI算法的占比在不断提升。

作为围棋之后 DeepMind 公开宣布的下一个攻克目标，《星际争霸》的魅力可见一斑。而随后不久 DeepMind 便将其相关研究及平台开源，更是印证了让 AI 玩星际争霸的挑战。

今天，塔尔图大学的 Roman Ring 在 Github 上开源了他倾力投入一年半的成果，一个名叫 Reaver 的《星际争霸 II》AI，可用于训练《星际争霸 II》的各种基本任务。

Reaver 的基本思路是沿着 DeepMind 的路线在走，也即 AI 的玩法是像人类玩家一样，从游戏画面中获取视觉特征，然后再做出决策。

补充说明，Roman 去年本科毕业项目是使用《Actor-Critic 法复现 DeepMind 星际争霸 II 强化学习基准》[1]，Reaver 则是在此基础上的改善提升。

Reaver 的强项在于比其他开源的同类框架单机运行速度快；除了支持星际争霸游戏训练环境 SC2LE，也支持 OpenAI Gym、ATARI 和 MUJOCO；模块化组成，容易调试。

根据作者所说，Reaver 不到10 秒就解决 CartPole-v0，在 4 核 CPU 笔记本上每秒处理 5000 张图像，使用 Google Colab，Reaver 通关《星际争霸 II》SC2LE 小型游戏 MoveToBeacon 只需要半小时的时间。

Reaver 玩《星际争霸 II》小型游戏 MoveToBeacon 的画面，左边是未经训练，右边是训练后的情况。来源：Roman Ring/YouTube

套用一句话，如果我们的征途是星辰大海，那么其中的一关必然是《星际争霸》。

Reaver 对于不具备 GPU 集群的人非常友好，正如作者在 Github 库里介绍所说，

“虽然开发是研究驱动的，但 Reaver API 背后的理念类似于《星际争霸II》游戏本身——新手可以用，领域专家也能从中获得东西。

“对于业余爱好者而言，只要对 Reaver 稍作修改（例如超参数），就能得到训练深度强化学习智能体的所有必须工具。对于经验丰富的研究人员，Reaver 提供简单但性能优化的代码库，而且都是模块化架构：智能体、模型和环境都是分开，并且可以随意组合调换。”

欢迎加入星际争霸强化学习阵营。

深度强化学习AIReaver：模块化且便于调试

性能大部分已发表的强化学习基准通常针对的都是 MPI 之间 message-based 通信，对于 DeepMind 或者 OpenAI 这样有大规模分布式强化学习配置的机构而言这样做自然很合理，但对于普通研究者或其他没有这类强大基础设施的人，这就成了很大的瓶颈。因此，Roman Ring 采用了共享内存（shared memory）的方法，相比 message-based 并行的解决方案实现了大约 3 倍的速度提升。

模块化很多强化学习基准都或多或少都是模块化的，不过这些基准通常与作者使用的训练环境密切相关。Roman Ring 自己就曾经因为专注于《星际争霸 II》环境而导致调试花了很长时间。因此，Revar 只需要一个命令行就能改变训练环境，从 SC2 到 Atari 或者 CartPole（将来计划纳入 VizDoom）。每个神经网络都是简单的 Keras 模型，只要符合基本的 API contracts 都能调用。

调试现在一个游戏 AI 通常含有十几个不同的调试参数，如何实现更为统一便捷的调试？Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”，这个轻量级调试框架只要是 Python 可调用函数都能调试，非常方便。

更新是的，现在算法发展很快，去年发表的东西今年就可能过时。在开发 Reaver 的时候 Roman 表示他想着用了 TensorFlow 2.0 API（主要是使用 tf.keras 不用 tf.contrib），希望这个库能活用久一点吧。

单机友好，可用于训练星际争霸II各种任务

Roman Ring 列出了 Reaver 在《星际争霸 II》各种小型游戏上与其他 AI 的性能对比。其中，

Reaver（A2C）就是在 SC2LE 训练 Reaver 得到的结果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中发布的结果[2]

DeepMind ReDRL 则是 DeepMind 在《Relational Deep Reinforcement Learning》中的结果[3]

人类专家是 DeepMind 收集的 GrandMaster 级别人类玩家的结果

以下是 Reaver 在不同小型游戏中训练花费的时间：

综上，就算 DefeatRoaches 花了 150 小时，但考虑到硬件只是一台笔记本（英特尔酷睿 i5-7300HQ，4核 +GTX 1050GPU），这个结果已经算很不错。

Roman 还列出了他的路线图，上述成果只是他万里长征的第一步。如果你感兴趣，不妨加入这个项目。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11314
GitHub

GitHub

+关注

关注
3

文章
474

浏览量
16696
AI算法

AI算法

+关注

关注
0

文章
252

浏览量
12359

原文标题：单机《星际争霸2》AI，不用GPU集群，支持多种训练环境

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

汽轮机与其他动力设备的对比

在现代工业中，动力设备是不可或缺的组成部分，它们为各种工业过程提供必要的能量。汽轮机作为一种高效的能量转换设备，与其他动力设备相比，具有其独特的优势和局限性。汽轮机的特点汽轮机的主要特点包括

发表于 02-06 16:58 •210次阅读

真空断路器与其他类型断路器的性能对比

在电力系统中，断路器是实现电路控制和保护的关键设备。随着技术的发展，断路器的种类也越来越多，包括真空断路器、空气断路器、油断路器和SF6断路器等。每种类型的断路器都有其特定的应用场景和性能特点

发表于 01-17 09:39 •233次阅读

HarmonyOS NEXT 应用开发练习：AI智能对话框

显示发送的时间戳，以便用户了解消息的发送时间。这个DEMO展示了如何使用ArkTS和扩展后的ChatUI框架（或类似功能的库）在HarmonyOS NEXT上创建一个功能丰富的AI智能对

发表于 01-03 11:29

华为云Flexus X实例，Redis性能加速评测及对比

加速 Redis 的选项。本文旨在通过实际测试，展示华为云 Flexus X 实例在加速 Redis 方面的性能优势，并与其他业界 U1 实例进行对比。

发表于 12-29 15:47 •233次阅读

ddc与其他分类系统的比较

DDC（Dewey Decimal Classification，即杜威十进制分类法）与其他分类系统在多个方面存在差异。以下是对DDC与其他分类系统（如体系分类法、网络分类体系、PLC控制系统分类等

发表于 12-18 15:10 •377次阅读

TNC连接器对比分析：与其他射频连接器的性能对决

德索工程师说道在射频连接器领域，TNC连接器以其卓越的性能和广泛的应用而著称。以下是TNC连接器与其他射频连接器的性能对比分析： TNC连接器vs SMA连接器频率范围：TNC连

发表于 12-17 10:58 •354次阅读

可控硅与其他半导体器件的对比

可控硅与其他半导体器件的对比如下：一、可控硅与IGBT的对比结构：可控硅：一种由NPNPN结构组成的多层PN结的器件，通常由四个电极组成，即门极（G）、阳极（A）、阴极（K）和螺旋线圈（C

发表于 12-04 10:47 •507次阅读

NPU与GPU的性能对比

它们在不同应用场景下的表现。一、设计初衷与优化方向 NPU ：专为加速AI任务而设计，包括深度学习和推理。针对神经网络的计算模式进行了优化，能够高效地执行矩阵乘法、卷积等操作。拥有众多小型处理单元，配备专门的内存体系结构

发表于 11-14 15:19 •2311次阅读

Orin芯片与其他芯片对比

。 1. 性能对比 Orin芯片：核心数量： Orin芯片拥有高达2048个CUDA核心，这为其提供了强大的图形处理能力。 AI性能：根据NVIDIA的数据，Orin的AI

发表于 10-27 15:42 •2057次阅读

Llama 3 模型与其他AI工具对比

Llama 3模型与其他AI工具的对比可以从多个维度进行，包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对Llama 3模型

发表于 10-27 14:37 •572次阅读

Chip天线相比较其他天线的优势有哪些？

hello小伙伴们，上周我们推出了Chip天线的文，这种天线因其小型化、高性能和易于集成的特点，能够在各种使用环境下保持优异的性能。 Chi

发表于 08-30 09:07 •440次阅读

PLC如何与其他设备进行通信

在工业自动化领域中，PLC（Programmable Logic Controller，可编程逻辑控制器）扮演着至关重要的角色。作为工业自动化系统的核心，PLC不仅负责控制设备的运行，还需要与其他

发表于 06-27 14:07 •2276次阅读

ICL5101与ICL5102性能对比

ICL5101与ICL5102性能对比-中文

发表于 06-17 14:26 •1次下载

三星电容与其他品牌电容的对比优势是什么？

三星电容与其他品牌电容相比，具有一些显著的优势，以下是一些主要的对比优势： 1、优秀的绝缘性能：三星电容具有出色的绝缘性能，这有助于减少漏电现象，提高电路的安全性和稳定性。

发表于 05-06 16:04 •651次阅读

逆变直流点焊机与其他类型点焊机对比研究

点焊机作为现代工业生产中不可或缺的焊接设备，其类型多样，性能各异。逆变直流点焊机以其高效、稳定、节能的特点，在焊接领域中逐渐占据重要地位。本文比斯特自动化小编将对逆变直流点焊机与其他类型点焊机进行

发表于 04-22 09:29 •822次阅读