0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Reaver在《星际争霸 II》各种小型游戏上与其他AI的性能对比

DPVg_AI_era 来源:未知 2018-11-29 09:43 次阅读

如果说我们的征途是星辰大海,那么星际争霸必定是其中一关。今天,有人在Github开源了他潜心研究一年半的成果,一个新手和资深研究人员都能受益的深度强化学习框架,单机运行速度快、方便调式,支持多种强化学习训练环境。

上周结束的 AI Challenger 星际争霸竞赛,让 AI 挑战星际争霸这个议题又稍稍火了一把。虽然这届冠军使用的仍然是硬编码方法,但从其他解决方案中不难看出,AI算法的占比在不断提升。

作为围棋之后 DeepMind 公开宣布的下一个攻克目标,《星际争霸》的魅力可见一斑。而随后不久 DeepMind 便将其相关研究及平台开源,更是印证了让 AI 玩星际争霸的挑战。

今天,塔尔图大学的 Roman Ring 在 Github 上开源了他倾力投入一年半的成果,一个名叫 Reaver 的《星际争霸 II》AI,可用于训练《星际争霸 II》的各种基本任务。

Reaver 的基本思路是沿着 DeepMind 的路线在走,也即 AI 的玩法是像人类玩家一样,从游戏画面中获取视觉特征,然后再做出决策。

补充说明,Roman 去年本科毕业项目是使用《Actor-Critic 法复现 DeepMind 星际争霸 II 强化学习基准》[1],Reaver 则是在此基础上的改善提升。

Reaver 的强项在于比其他开源的同类框架单机运行速度快;除了支持星际争霸游戏训练环境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模块化组成,容易调试。

根据作者所说,Reaver 不到10 秒就解决 CartPole-v0,在 4 核 CPU 笔记本上每秒处理 5000 张图像,使用 Google Colab,Reaver 通关《星际争霸 II》SC2LE 小型游戏 MoveToBeacon 只需要半小时的时间。

Reaver 玩《星际争霸 II》小型游戏 MoveToBeacon 的画面,左边是未经训练,右边是训练后的情况。来源:Roman Ring/YouTube

套用一句话,如果我们的征途是星辰大海,那么其中的一关必然是《星际争霸》。

Reaver 对于不具备 GPU 集群的人非常友好,正如作者在 Github 库里介绍所说,

“虽然开发是研究驱动的,但 Reaver API 背后的理念类似于《星际争霸II》游戏本身——新手可以用,领域专家也能从中获得东西。

“对于业余爱好者而言,只要对 Reaver 稍作修改(例如超参数),就能得到训练深度强化学习智能体的所有必须工具。对于经验丰富的研究人员,Reaver 提供简单但性能优化的代码库,而且都是模块化架构:智能体、模型和环境都是分开,并且可以随意组合调换。”

欢迎加入星际争霸强化学习阵营。

深度强化学习AIReaver:模块化且便于调试

性能 大部分已发表的强化学习基准通常针对的都是 MPI 之间 message-based 通信,对于 DeepMind 或者 OpenAI 这样有大规模分布式强化学习配置的机构而言这样做自然很合理,但对于普通研究者或其他没有这类强大基础设施的人,这就成了很大的瓶颈。因此,Roman Ring 采用了共享内存(shared memory)的方法,相比 message-based 并行的解决方案实现了大约 3 倍的速度提升。

模块化 很多强化学习基准都或多或少都是模块化的,不过这些基准通常与作者使用的训练环境密切相关。Roman Ring 自己就曾经因为专注于《星际争霸 II》环境而导致调试花了很长时间。因此,Revar 只需要一个命令行就能改变训练环境,从 SC2 到 Atari 或者 CartPole(将来计划纳入 VizDoom)。每个神经网络都是简单的 Keras 模型,只要符合基本的 API contracts 都能调用。

调试 现在一个游戏 AI 通常含有十几个不同的调试参数,如何实现更为统一便捷的调试?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,这个轻量级调试框架只要是 Python 可调用函数都能调试,非常方便。

更新 是的,现在算法发展很快,去年发表的东西今年就可能过时。在开发 Reaver 的时候 Roman 表示他想着用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望这个库能活用久一点吧。

单机友好,可用于训练星际争霸II各种任务

Roman Ring 列出了 Reaver 在《星际争霸 II》各种小型游戏上与其他 AI 的性能对比。其中,

Reaver(A2C)就是在 SC2LE 训练 Reaver 得到的结果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中发布的结果[2]

DeepMind ReDRL 则是 DeepMind 在《Relational Deep Reinforcement Learning》中的结果[3]

人类专家是 DeepMind 收集的 GrandMaster 级别人类玩家的结果

以下是 Reaver 在不同小型游戏中训练花费的时间:

综上,就算 DefeatRoaches 花了 150 小时,但考虑到硬件只是一台笔记本(英特尔酷睿 i5-7300HQ,4核 +GTX 1050GPU),这个结果已经算很不错。

Roman 还列出了他的路线图,上述成果只是他万里长征的第一步。如果你感兴趣,不妨加入这个项目。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    266

    浏览量

    11251
  • GitHub
    +关注

    关注

    3

    文章

    471

    浏览量

    16435
  • AI算法
    +关注

    关注

    0

    文章

    249

    浏览量

    12260

原文标题:单机《星际争霸2》AI,不用GPU集群,支持多种训练环境

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Triton编译器与其他编译器的比较

    的GPU编程框架,使开发者能够编写出接近手工优化的高性能GPU内核。 其他编译器 (如GCC、Clang、MSVC等): 定位:通用编译器,支持多种编程语言,广泛应用于各种软件开发场景。 目标:提供稳定、高效的编译服务,优化代码
    的头像 发表于 12-24 17:25 276次阅读

    单片机Debug工具性能对比 单片机调试常用命令

    。以下是对单片机调试工具性能的简要对比以及一些常用的调试命令。 单片机Debug工具性能对比 Keil uVision 性能 :Keil uVision 是一款功能强大的集成开发环境(
    的头像 发表于 12-19 09:56 196次阅读

    ddc与其他分类系统的比较

    DDC(Dewey Decimal Classification,即杜威十进制分类法)与其他分类系统多个方面存在差异。以下是对DDC与其他分类系统(如体系分类法、网络分类体系、PLC控制系统分类等
    的头像 发表于 12-18 15:10 222次阅读

    TNC连接器对比分析:与其他射频连接器的性能对

    德索工程师说道射频连接器领域,TNC连接器以其卓越的性能和广泛的应用而著称。以下是TNC连接器与其他射频连接器的性能对比分析: TNC连接器vs SMA连接器 频率范围:TNC连
    的头像 发表于 12-17 10:58 120次阅读
    TNC连接器<b class='flag-5'>对比</b>分析:<b class='flag-5'>与其他</b>射频连接器的<b class='flag-5'>性能对</b>决

    漆包线电机中的应用 漆包线与其他导线的比较

    漆包线电机中的应用 电机是现代工业和日常生活中不可或缺的动力设备,其性能和效率直接影响到机械设备的运转效果。漆包线作为电机绕组的核心材料之一,其性能对电机的整体表现有着至关重要的影响。 1.
    的头像 发表于 12-09 09:20 490次阅读

    可控硅与其他半导体器件的对比

    可控硅与其他半导体器件的对比如下: 一、可控硅与IGBT的对比 结构 : 可控硅:一种由NPNPN结构组成的多层PN结的器件,通常由四个电极组成,即门极(G)、阳极(A)、阴极(K)和螺旋线圈(C
    的头像 发表于 12-04 10:47 261次阅读

    NPU与GPU的性能对比

    它们不同应用场景下的表现。 一、设计初衷与优化方向 NPU : 专为加速AI任务而设计,包括深度学习和推理。 针对神经网络的计算模式进行了优化,能够高效地执行矩阵乘法、卷积等操作。 拥有众多小型处理单元,配备专门的内存体系结构
    的头像 发表于 11-14 15:19 971次阅读

    soc与其他集成电路的比较分析

    将一个完整的系统所需的大部分或所有组件集成到一个单一的芯片,包括处理器核心、内存、输入/输出接口等。 复杂功能 :由于集成了多种功能模块,SOC能够支持高性能计算和复杂功能。 MCU 小型计算设备 :MCU集成了处理器核心、存
    的头像 发表于 11-10 09:32 443次阅读

    Orin芯片与其他芯片对比

    。 1. 性能对比 Orin芯片: 核心数量: Orin芯片拥有高达2048个CUDA核心,这为其提供了强大的图形处理能力。 AI性能: 根据NVIDIA的数据,Orin的AI
    的头像 发表于 10-27 15:42 876次阅读

    Llama 3 模型与其他AI工具对比

    Llama 3模型与其他AI工具的对比可以从多个维度进行,包括但不限于技术架构、性能表现、应用场景、定制化能力、开源与成本等方面。以下是对Llama 3模型
    的头像 发表于 10-27 14:37 379次阅读

    Chip天线相比较其他天线的优势有哪些?

    hello小伙伴们,上周我们推出了Chip天线的文,这种天线因其小型化、高性能和易于集成的特点,能够各种使用环境下保持优异的性能。 Chi
    的头像 发表于 08-30 09:07 309次阅读
    Chip天线相比较<b class='flag-5'>其他</b>天线的优势有哪些?

    PLC如何与其他设备进行通信

    工业自动化领域中,PLC(Programmable Logic Controller,可编程逻辑控制器)扮演着至关重要的角色。作为工业自动化系统的核心,PLC不仅负责控制设备的运行,还需要与其他
    的头像 发表于 06-27 14:07 1981次阅读

    ICL5101与ICL5102性能对比

    ICL5101与ICL5102性能对比-中文
    发表于 06-17 14:26 1次下载

    三星电容与其他品牌电容的对比优势是什么?

    三星电容与其他品牌电容相比,具有一些显著的优势,以下是一些主要的对比优势: 1、优秀的绝缘性能:三星电容具有出色的绝缘性能,这有助于减少漏电现象,提高电路的安全性和稳定性。
    的头像 发表于 05-06 16:04 508次阅读
    三星电容<b class='flag-5'>与其他</b>品牌电容的<b class='flag-5'>对比</b>优势是什么?

    逆变直流点焊机与其他类型点焊机对比研究

    点焊机作为现代工业生产中不可或缺的焊接设备,其类型多样,性能各异。逆变直流点焊机以其高效、稳定、节能的特点,焊接领域中逐渐占据重要地位。本文比斯特自动化小编将对逆变直流点焊机与其他类型点焊机进行
    的头像 发表于 04-22 09:29 698次阅读