DeepMind的“星际2”智能体AlphaStar实际上是演化算法？-电子发烧友网

深度强化学习、多智体强化学习以及博弈论，是DeepMind战胜职业星际II玩家的智能体AlphaStar的重要技术。伦敦帝国大学和NYU研究人员则从进化计算的角度指出，AlphaStar使用的竞争协同进化算法策略被远远低估。

DeepMind首次战胜星际II职业玩家的AI——AlphaStar，正如新智元创始人兼CEO杨静女士在《新智元2019年寄语》中所说的那样，引爆机器智能无限可能。

AlphaStar是一项壮举，是建立在DeepMind及其他研究人员多年的研究和工程基础之上，尤其是深度强化学习(DRL)、多智体强化学习(MARL)和博弈论。

虽然在官方博文中，DeepMind也提到了进化算法(Evolutionary Algorithm, EA)，但这显然并非其重点。不过，伦敦帝国学院的Kai Arulkumaran等人，反过来从进化算法的角度来看AlphaStar，希望对深度强化学习领域和进化计算的研究者都带来启发。

进化计算和深度学习并非对立的两个阵营。

事实上，Arulkumaran等人最新在Arxiv上贴出的论文《从进化计算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective)，也确实提出了很多新的问题。

例如，在DeepMind提出的快速调参算法PBT中，用Baldwinian进化算法代替拉马克(Lamarckian)进化，是否能得到元学习星际II智能体？

Arulkumaran本人也在Twitter表示，这篇文章是对一系列概念的高级概括，还需要进一步探索，他们在写作时有意识地省略了演化计算和博弈论之间重叠的部分。

同时，他也指出，不能认为AlphaStar仅仅只是一个演化算法，AlphaStar的混合性质有些类似于AlphaGo atm。“DeepMind官方博文显示了从IL阶段MMR的提升，这一点看起来很重要，但哪些细节是最重要的，我们目前还不知道。”

以下是新智元对文章的编译。

从进化计算角度看AlphaStar

2019年1月，DeepMind向世界展示了AlphaStar——第一个在星际争霸II游戏中击败职业玩家的人工智能（AI）系统，它代表了人工智能技术进步的一个里程碑。

AlphaStar涉及人工智能研究的许多领域，包括深度学习，强化学习，博弈论和进化计算等（EC）。

在本文中，我们主要通过进化计算的角度来分析AlphaStar，为审视该系统提供一个新的视角，并将其与AI领域的许多概念关联起来。我们重点介绍其中一些最有趣的方面：拉马克进化、协同竞争进化和质量多样性。希望通过本文，在更广泛的进化计算社区与新诞生的这个重要的AI系统之间架起一座桥梁。

在1997年”深蓝“击败国际象棋世界冠军后，人工智能与人类博弈的下一个重要里程碑是出现在2016年，围棋世界冠军李世乭被AlphaGo击败。国际象棋和围棋此前都被认为是AI取得进展最困难的领域，可以说，与之相比难度相当的考验之一就是击败星际争霸（SC）游戏中的大师级玩家。

星际争霸是一款即时战略（RTS）游戏。《星际1》及其续作《星际II》都具有几个特点，使得它甚至比围棋的挑战更大。比如只能观察到战场的一部分、没有单一的主导策略、复杂的游戏规则、快速建模的难度更大，动作空间极大，且复杂多变等。可以说，想实现征服《星际争霸》的目标，一点也不比围棋上的突破来得容易。

想实现征服《星际争霸》的目标，一点也不比围棋上的突破来得容易。图片来源：Jesus Rodriguez, The Science Behind AlphaStar

最近，DeepMind推出的AlphaStar向着实现这个目标迈出了重要一步，AlphaStar是一个基于神经网络的AI系统，在2018年12月击败了专业的SC II玩家。

该系统与其前身AlphaGo一样，最初使用模仿学习来模仿人类的游戏行为，然后通过强化学习（RL）和自我对弈的组合方式进行改进。

算法在这里发生了分歧，因为AlphaStar利用基于人口的训练（PBT）来明确地保持一群相互训练的智能体。这部分训练过程建立在多智能体强化学习和博弈论视角之上，但人口的概念是进化计算的核心，因此我们也可以通过这个视角来考察AlphaStar。

AlphaStar使用了拉马克进化算法

目前，训练神经网络参数的最流行的方法是反向传播（BP）。但是，有许多方法可以调整其超参数，包括进化算法。

其中一种方法是使用模因算法（MA），这个算法中，进化作为外部优化算法运行，并且各个解决方案可以通过内环中的其他方式（例如反向传播）来进行优化。在这种特定情况下，模因算法可以将进化算法的探索和全局搜索属性与反向传播算法的高效本地搜索的优势结合起来。

AlphaStar的基本架构。来源：DeepMind

在AlphaStar中，用于训练智能体的基于人口的训练策略（PBT）是使用拉马克进化（LE）的模因算法：在内环中，使用反向传播连续训练神经网络，而在外环中，使用几种选择方法中的一种来选择网络（比如淘汰制锦标赛选择），用胜者的参数覆盖败者的参数，败者也会收到胜者超参数的“变异”副本。

PBT策略最初是通过一系列监督学习和强化学习任务展示的，调整和提升神经网络的性能。对于具有高度非平稳损耗表面的问题，例如深度强化学习问题，这种策略可能是最有效的，因为它可以在运行过程中改变超参数。

AlphaStar vs MaNa，神经网络如何将观察到的结果转换为行动。来源：DeepMind

由于单个网络可能需要高达数G的内存，或需要训练长达几个小时，因此可扩展性是PBT的关键。因此，PBT既是异步的，又是分布式的。与使用静态超参数运行许多实验不同，使用相同数量的硬件，利用PBT只需要很少的开销——外部循环可以重用内部循环的解决方案进行评估，而且数据通信量也比较低。如果考虑非平稳超参数因素和对较弱解决方案的优先抢占的影响，PBT方案能够节省的成本更多。

这些要求的另一个结果是PBT是稳定状态，这一点与分代进化算法不同。由于对异步进化算法和拉马克进化的自然适应性，稳态进化算法可以允许各个解决方案的优化和评估不间断地进行，从而实现资源效率最大化。

最适合的解决方案能够存活更长时间，自然地提供了一种精英主义/名人堂模式，但并非最优的前代方案也可以保留下来，保持解决方案多样性。

自我对弈也体现了竞争性协同进化（CCEA）

在对AlphaStar一类游戏智能体进行优化时，智能体可以使用自对战来提升水平。

竞争性协同进化算法（CCEA）可以被视为自我对弈的超集（superset），并非只保留当前解决方案及其前身，而是保持和评估整个解决方案的群体。

与自我对弈一样，CEA形成了一个自然的教学过程，但也提供了额外的稳健性，因为产生的解决方案是基于各种其他解决方案进行评估的。

AlphaStar的训练过程。来源：DeepMind

通过在CCEA环境中使用PBT策略，利用基于反向传播的深度强化学习，再加上进化版的奖励函数，能够训练智能体从像素级入手，开始学习玩第一人称游戏。

CEA的设计包括很多方面，这种方法的特征可能导致许多潜在的变体。

AlphaStar还可以归为质量多样性算法

在《星际争霸》中，没有所谓“最好的策略”。因此，最终的AlphaStar智能体由纳什分布的人口组成，构成一组互补的、最不可利用的策略。

为了改进训练方式，增加最终解决方案的多样性，明确鼓励多样性是有意义的。

AlphaStar也可以归为质量多样性（QD）算法。尤其是，智能体可以具有游戏特定的属性，例如构建特定类型的额外单位，以及击败某个其他智能体的标准，击败一组其他智能体的标准，甚至是上述这些要素的混合。

此外，这些特定标准也可以在线调整，这对于QD算法而言属于全新的特性——除了POET以外。这使得智能体可以做到更多的事情：可以从人类数据中提取有用的信息，甚至进行无监督学习。

考虑到一系列不同的策略，下一步将自然而然地推断哪种策略可能最适合对付给定的对手，从而实现在线适应。

讨论

虽然AlphaStar是一个复杂的系统，涉及人工智能研究的许多领域，但我们认为，迄今为止被低估的一点是竞争性协同进化算法策略。它结合了拉马克进化，共同进化和质量多样性，达到了惊人的效果。

希望本文能够让进化计算和深度强化学习社区更好地欣赏和构建这个重要的AI系统。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能体

智能体

+关注

关注
1

文章
195

浏览量
10723
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121878
DeepMind

DeepMind

+关注

关注
0

文章
131

浏览量
11059

原文标题：DeepMind首个战胜星际2职业玩家的AI为何无敌？新视角揭秘AI里程碑

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

未来的AI 深挖谷歌 DeepMind 和它背后的技术

的游戏可以提高战略思维能力。通过学习如何玩这些复杂的游戏，机器将获得思考和采取战略行动的能力。DeepMind的通用学习算法让机器可以通过游戏化学习，尝试获得类人的智力和行为。尽管该公司对实现人类智能

发表于 08-26 12:04

利用PLD实现智能演化计算

演化计算是一种通过模拟的自然界的生物演化过程搜索最优解的方法，主要包括遗传算法（CA）、演化策略（ES）、演化规划（EP）等。

发表于 06-26 17:43 •24次下载

演化硬件概念分析

演化硬件实际上是一种特殊硬件，它可以像生物一样具有自适应、自组织、自修复特性，从而可以根据使用环境的变化而改变自身的结构以适应其生存环境。从狭义上来讲，演化硬

发表于 08-04 11:24 •1117次阅读

基于编码转换的离散演化算法设计与应用

为了利用演化算法求解离散域上的组合优化问题，借鉴遗传算法（GA）、二进制粒子群优化（BPSO）和二进制差分演化（HBDE）中的映射方法，提出

发表于 12-14 16:12 •0次下载

AlphaStar横空出世星际争霸2人类1：10输给AI

　刚刚，我们见证了 AI 与人类 PK 的又一次重大进展！DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与

发表于 01-25 09:40 •3411次阅读

一天等于两百年？人工智能在星际争霸2上向人类发出挑战

今天，一则《Deepmind公布星际争霸2结果：AlphaStar以10:1战胜职业高手》一文，引发热议，但是其实在两年前，AI就与人类选手进行过星

发表于 07-29 18:21 •922次阅读

揭秘星际2人工智能AlphaStar：DeepMind科学家回应一切

神经网络本身大概要花 50 毫秒来计算一个动作，但这只是游戏事件发生和 AlphaStar 对该事件做出反应期间的部分处理过程。首先，AlphaStar 平均每 250 毫秒才观察一次游戏，这是因为神经网络除了本身的动作（有时被称为时间抽象动作）之外，还会等待一些其他的游

发表于 01-28 15:39 •3522次阅读

为什么DeepMind的科学家们对星际争霸如此痴迷

星际在全球玩家众多，是最流行的一款实时策略游戏之一，而 DeepMind 汇聚了全球最顶尖的人工智能科学家，似乎两者出现在同一个场景里有些违和。大众刻板印象里面，科学家一般都与实验科研为伍，怎么会对玩

发表于 01-29 10:43 •4096次阅读

DeepMind在伦敦向世界展示了他们的最新成果——星际争霸2人工智能AlphaStar

星际争霸中包含神族、人族、虫族三种选择，不同种族有不同的作战单位、生产机制和科技机制，因而各个种族间存在战术制衡。为了降低任务训练所需时间，并避免不同种族间客观存在的不平衡性，AlphaStar以神族对阵神族为特定训练场景，固定使用天梯地图-CatalystLE为训练和对

发表于 01-30 15:56 •5537次阅读

AIoT在今年将会迎来的一波热潮

AI近些年非常火热，尤其借由DeepMind推出的AlphaGo在围棋领域战胜人类一事，一度将其推上“神坛”。时隔两年，DeepMind携全新AlphaStar再次惊艳亮相，最近在策略类游戏“

发表于 02-12 16:29 •1614次阅读

企业怎样利用人工智能术取得跨越式发展?人工智能领域还有哪些创业机会

谷歌旗下公司DeepMind开发的全新AI程序AlphaStar，在《星际争霸2》人机大战中，以10：1的战绩，全面击溃了人类职业高手。这不禁让人想到2017年AlphaGo以3场全胜

发表于 03-18 10:02 •2785次阅读

人工智能告诉我们未来需要更深入地探索人类创造力的本质

人工智能这几年发展势头迅猛，先是阿尔法狗击败了世界顶级围棋高手李世石和柯洁。这一次人工智能算法再一次击败人类专家，称霸了另一款电脑游戏，谷歌DeepMind的AlphaStar系统在《

发表于 03-31 11:00 •845次阅读

DeepMind阿尔法被打脸，华为论文指出多项问题

DeepMind 在强化学习领域具有很高的学术声誉。从 AlphaGo 到 AlphaStar，每一项研究都取得了举世瞩目的成就，但就在最近，DeepMind 的一篇有关多智能

发表于 11-22 16:26 •3295次阅读

人工智能实际上并不像听起来那样可怕

好消息是，人工智能实际上并不像听起来那样可怕，并且通过获得LinkedIn最高度评价的技能之一，既可以负担得起又易于理解的指导有可能对领域进行透彻了解。

发表于 07-22 14:44 •1722次阅读

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（

发表于 07-24 16:55 •610次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

DeepMind的“星际2”智能体AlphaStar实际上是演化算法？

评论

未来的AI 深挖谷歌 DeepMind 和它背后的技术

利用PLD实现智能演化计算

演化硬件概念分析

基于编码转换的离散演化算法设计与应用

AlphaStar横空出世星际争霸2人类1：10输给AI

一天等于两百年？人工智能在星际争霸2上向人类发出挑战

揭秘星际2人工智能AlphaStar：DeepMind科学家回应一切

为什么DeepMind的科学家们对星际争霸如此痴迷

DeepMind在伦敦向世界展示了他们的最新成果——星际争霸2人工智能AlphaStar

AIoT在今年将会迎来的一波热潮

企业怎样利用人工智能术取得跨越式发展?人工智能领域还有哪些创业机会

人工智能告诉我们未来需要更深入地探索人类创造力的本质

DeepMind阿尔法被打脸，华为论文指出多项问题

人工智能实际上并不像听起来那样可怕

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路