0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Reaver在《星际争霸 II》各种小型游戏上与其他AI的性能对比

DPVg_AI_era 来源:未知 2018-11-29 09:43 次阅读

如果说我们的征途是星辰大海,那么星际争霸必定是其中一关。今天,有人在Github开源了他潜心研究一年半的成果,一个新手和资深研究人员都能受益的深度强化学习框架,单机运行速度快、方便调式,支持多种强化学习训练环境。

上周结束的 AI Challenger 星际争霸竞赛,让 AI 挑战星际争霸这个议题又稍稍火了一把。虽然这届冠军使用的仍然是硬编码方法,但从其他解决方案中不难看出,AI算法的占比在不断提升。

作为围棋之后 DeepMind 公开宣布的下一个攻克目标,《星际争霸》的魅力可见一斑。而随后不久 DeepMind 便将其相关研究及平台开源,更是印证了让 AI 玩星际争霸的挑战。

今天,塔尔图大学的 Roman Ring 在 Github 上开源了他倾力投入一年半的成果,一个名叫 Reaver 的《星际争霸 II》AI,可用于训练《星际争霸 II》的各种基本任务。

Reaver 的基本思路是沿着 DeepMind 的路线在走,也即 AI 的玩法是像人类玩家一样,从游戏画面中获取视觉特征,然后再做出决策。

补充说明,Roman 去年本科毕业项目是使用《Actor-Critic 法复现 DeepMind 星际争霸 II 强化学习基准》[1],Reaver 则是在此基础上的改善提升。

Reaver 的强项在于比其他开源的同类框架单机运行速度快;除了支持星际争霸游戏训练环境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模块化组成,容易调试。

根据作者所说,Reaver 不到10 秒就解决 CartPole-v0,在 4 核 CPU 笔记本上每秒处理 5000 张图像,使用 Google Colab,Reaver 通关《星际争霸 II》SC2LE 小型游戏 MoveToBeacon 只需要半小时的时间。

Reaver 玩《星际争霸 II》小型游戏 MoveToBeacon 的画面,左边是未经训练,右边是训练后的情况。来源:Roman Ring/YouTube

套用一句话,如果我们的征途是星辰大海,那么其中的一关必然是《星际争霸》。

Reaver 对于不具备 GPU 集群的人非常友好,正如作者在 Github 库里介绍所说,

“虽然开发是研究驱动的,但 Reaver API 背后的理念类似于《星际争霸II》游戏本身——新手可以用,领域专家也能从中获得东西。

“对于业余爱好者而言,只要对 Reaver 稍作修改(例如超参数),就能得到训练深度强化学习智能体的所有必须工具。对于经验丰富的研究人员,Reaver 提供简单但性能优化的代码库,而且都是模块化架构:智能体、模型和环境都是分开,并且可以随意组合调换。”

欢迎加入星际争霸强化学习阵营。

深度强化学习AIReaver:模块化且便于调试

性能 大部分已发表的强化学习基准通常针对的都是 MPI 之间 message-based 通信,对于 DeepMind 或者 OpenAI 这样有大规模分布式强化学习配置的机构而言这样做自然很合理,但对于普通研究者或其他没有这类强大基础设施的人,这就成了很大的瓶颈。因此,Roman Ring 采用了共享内存(shared memory)的方法,相比 message-based 并行的解决方案实现了大约 3 倍的速度提升。

模块化 很多强化学习基准都或多或少都是模块化的,不过这些基准通常与作者使用的训练环境密切相关。Roman Ring 自己就曾经因为专注于《星际争霸 II》环境而导致调试花了很长时间。因此,Revar 只需要一个命令行就能改变训练环境,从 SC2 到 Atari 或者 CartPole(将来计划纳入 VizDoom)。每个神经网络都是简单的 Keras 模型,只要符合基本的 API contracts 都能调用。

调试 现在一个游戏 AI 通常含有十几个不同的调试参数,如何实现更为统一便捷的调试?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,这个轻量级调试框架只要是 Python 可调用函数都能调试,非常方便。

更新 是的,现在算法发展很快,去年发表的东西今年就可能过时。在开发 Reaver 的时候 Roman 表示他想着用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望这个库能活用久一点吧。

单机友好,可用于训练星际争霸II各种任务

Roman Ring 列出了 Reaver 在《星际争霸 II》各种小型游戏上与其他 AI 的性能对比。其中,

Reaver(A2C)就是在 SC2LE 训练 Reaver 得到的结果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中发布的结果[2]

DeepMind ReDRL 则是 DeepMind 在《Relational Deep Reinforcement Learning》中的结果[3]

人类专家是 DeepMind 收集的 GrandMaster 级别人类玩家的结果

以下是 Reaver 在不同小型游戏中训练花费的时间:

综上,就算 DefeatRoaches 花了 150 小时,但考虑到硬件只是一台笔记本(英特尔酷睿 i5-7300HQ,4核 +GTX 1050GPU),这个结果已经算很不错。

Roman 还列出了他的路线图,上述成果只是他万里长征的第一步。如果你感兴趣,不妨加入这个项目。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    263

    浏览量

    11157
  • GitHub
    +关注

    关注

    3

    文章

    461

    浏览量

    16231
  • AI算法
    +关注

    关注

    0

    文章

    241

    浏览量

    12177

原文标题:单机《星际争霸2》AI,不用GPU集群,支持多种训练环境

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Chip天线相比较其他天线的优势有哪些?

    hello小伙伴们,上周我们推出了Chip天线的文,这种天线因其小型化、高性能和易于集成的特点,能够各种使用环境下保持优异的性能。 Chi
    的头像 发表于 08-30 09:07 125次阅读
    Chip天线相比较<b class='flag-5'>其他</b>天线的优势有哪些?

    PLC如何与其他设备进行通信

    工业自动化领域中,PLC(Programmable Logic Controller,可编程逻辑控制器)扮演着至关重要的角色。作为工业自动化系统的核心,PLC不仅负责控制设备的运行,还需要与其他
    的头像 发表于 06-27 14:07 944次阅读

    ICL5101与ICL5102性能对比

    ICL5101与ICL5102性能对比-中文
    发表于 06-17 14:26 1次下载

    三星电容与其他品牌电容的对比优势是什么?

    三星电容与其他品牌电容相比,具有一些显著的优势,以下是一些主要的对比优势: 1、优秀的绝缘性能:三星电容具有出色的绝缘性能,这有助于减少漏电现象,提高电路的安全性和稳定性。
    的头像 发表于 05-06 16:04 284次阅读
    三星电容<b class='flag-5'>与其他</b>品牌电容的<b class='flag-5'>对比</b>优势是什么?

    MES管理系统与其他系统的集成

    MES管理系统与其他系统的集成是实现生产流程高效协同的关键。通过与其他系统的紧密集成,MES管理系统可以更好地发挥其作用,实现生产资源的优化配置、产品数据的准确管理、物流与生产的协同以及生产自动化和智能化。这不仅提高了企业的生产效率和质量,也为企业的发展提供了强有力的支撑
    的头像 发表于 04-23 11:19 420次阅读
    MES管理系统<b class='flag-5'>与其他</b>系统的集成

    逆变直流点焊机与其他类型点焊机对比研究

    点焊机作为现代工业生产中不可或缺的焊接设备,其类型多样,性能各异。逆变直流点焊机以其高效、稳定、节能的特点,焊接领域中逐渐占据重要地位。本文比斯特自动化小编将对逆变直流点焊机与其他类型点焊机进行
    的头像 发表于 04-22 09:29 510次阅读

    以太网通讯与485通讯性能对比

    以太网通讯与485通讯性能对比  以太网通讯和485通讯是两种常用的工业通讯方式,它们性能方面有着不同的特点和优势。本文将对以太网通讯和485通讯的性能进行详尽、详实、细致的
    的头像 发表于 12-11 17:07 1836次阅读

    奥拓电子MetaBox XR虚拟拍摄解决方案进军游戏领域

    体验,成为整场活动的焦点之一。暴雪嘉年华是暴雪娱乐(Blizzard)的年度盛会,这家全球顶尖的游戏制作公司推出过《魔兽争霸》、《守望先锋》、《星际争霸》、《暗黑破坏神》、《魔兽世界》等风靡世界的作品
    的头像 发表于 11-15 12:48 606次阅读

    R128平台SPI与DBI接口的性能对比

    R128平台SPI与DBI接口的性能对比
    的头像 发表于 11-15 09:08 796次阅读
    R128平台SPI与DBI接口的<b class='flag-5'>性能对比</b>

    NFC与其他近距离无线通信技术的对比

    电子发烧友网站提供《NFC与其他近距离无线通信技术的对比.pdf》资料免费下载
    发表于 11-10 15:45 0次下载
    NFC<b class='flag-5'>与其他</b>近距离无线通信技术的<b class='flag-5'>对比</b>

    昇腾910和含光800性能对比

    有网友问昇腾910和含光800性能对比;华为推出的昇腾910性能强大,而含光800则是阿里巴巴发布的含光800AI芯片。 2019年9月25日,阿里巴巴发布含光800AI芯片;含光80
    的头像 发表于 10-16 17:29 1576次阅读

    鲲鹏920和苹果M1性能对比

    鲲鹏920和苹果M1性能对比如下: 鲲鹏920和苹果M1芯片在设计和性能上有所差异。据了解,鲲鹏920和苹果M1芯片都采用了先进的工艺制程,具有高性能和低功耗的特点。 首先,苹果M1芯片采用了台积电
    的头像 发表于 10-16 17:01 1623次阅读

    天玑7200和8100性能对比

    天玑7200和8100性能对比: 天玑8100是联发科高频版芯片,已于2022年3月1日正式发布。天玑7200于2023年2月16日正式发布。 天玑 8100 号称比同级竞品多核性能提升 12
    的头像 发表于 10-16 16:33 1.5w次阅读

    麒麟9610A和高通8155性能对比 麒麟9610A和高通8295性能对比

    麒麟9610A和高通8155性能对比 算力:麒麟9610A和高通8155的算力都达到了200k DMIPS。这意味着它们处理计算密集型任务方面具有相似的性能。 工艺制程:麒麟9610A采用了国产
    的头像 发表于 10-16 14:49 8821次阅读

    Spring Boot虚拟线程和Webflux性能对比

    早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错。内容较长,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读。
    发表于 09-24 14:54 750次阅读
    Spring Boot虚拟线程和Webflux<b class='flag-5'>性能对比</b>