“最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军
OpenAI 又回来了。就在硅谷当地时间 4 月 13 日,它完成了其成立以来的最大挑战——迎战 TI8( Dota 2 国际邀请赛)冠军 OG 战队,并以 2:0 的成绩最终碾压人类(还史无前例地上演了一场人机搭配的大混战)!
至此,继 DeepMind AlphaGo 攻陷围棋之后, Dota 2 被 OpenAI 拿下。
赛后,OG 队长 N0tail 在接受采访时表示,“AI 的表现超乎想象,它虽然在插眼等方面还有待进步,买活的时机也与人类常识相反,但它的技能释放十分精准,可能凌驾于所有人类玩家之上,而且有超强的执行力,能够保证随时将损失降到最低。或许跟它交战 50 场之后,我们能赢一常”
图 | 在击败 OG 之前,OpenAI 已经打败了 Alliance 等三只职业队伍,全部都是 2:
在比赛结束后,OpenAI 宣布,从4 月18 日到 4 月 21 日内,所有人都可以挑战 OpenAI Five,即日起开放注册。无论你是 2000分,还是 8000分,都可以组队挑战这个打败了 OG 的强大AI。
此次比赛之前,OpenAI 表示,这次公开对决将会是 OpenAI Five 在 Dota 2 中的最后一次出场,因此本次比赛名为OpenAI Five Finals,意为“最终之战”。它的对手自然不能是无名之辈。
人类代表:OG战队
代表人类出战的 OG 战队,是第八届 Dota 2国际邀请赛(TI8)的冠军。它的前身是“monkeyBusiness”战队,最早以大爹 N0tail 和他的挚友 Fly 为核心(两人一起打了超过 1400 场 Dota),还挖掘了当时的天才少年,之后的天梯9000 分第一人 Miracle,发展历程可以追溯到 2015 年,颇具传奇色彩。
图丨 OG 战队的五名成员 (来源:OG)
彼时,五人组刚刚更名 OG,就一举拿下了法兰克福和马尼拉 Major 锦标赛冠军。在 TI6 失意之后,Miracle 等三人离队,仅留下 N0tail和Fly两兄弟,但重振旗鼓的 OG 又连续拿下波士顿和基辅 Major 冠军,成为首支赢得四次 Major 冠军的 Dota 2 战队。
好景不长,在经历 TI7 和 2017/2018 赛季的低潮期后,OG 眼看 TI8 直邀无望,只能参加海眩可是雪上加霜的是,在海选开始前不到一个月,s4 和 Fly 两名选手突然转会 EG 战队,几乎意味着 N0tail 和 OG 的 TI8 之旅还没开始就结束了,逼得 OG 不得不紧急引入从未打过职业的新人 Topson,兄弟 Dota 不复存在。
造化弄人,就是 OG 这样一支临时拼凑的海选队伍,最终爆发出惊人的韧性和团队默契,多次上演惊天翻盘,手刃“叛徒” Fly 和 s4 所在的 EG 战队,力克“不可战胜的” PSG.LGD 战队两次( True Sight 看的让人心痛),出人意料地拿下了 TI8 冠军之盾。
图 | TI8 赛场,昔日好友,形同陌路
从不被看好,到一路逆袭,再到近半年又一次跌落神坛,OG 虽然被戏称为“最菜 TI 冠军”,也被诟病“含金量不足”,但它夺冠之路的传奇色彩足以比肩曾经的护国神翼Wings。尤其是在夺冠功臣 Ana 复出之后,其纸面实力绝对不容小觑。
此次 OpenAI Five 选择最终决战 TI8 冠军 OG,足以为 OpenAI Dota 2 AI 游戏项目划上一个完整的句号。
AI表现惊艳,OG溃不成军
这次比赛是三局两胜制,双方按照队长模式选人。OpenAI 仍然制定了一些限制,规则与之前 TI8 上的基本比赛一致,但移除了巫妖,剩下了 17 个英雄:
图 | 比赛限制
第一局,AI 选出了直升机、,火枪、死亡先知、斯温和冰女的四核阵容,选人结束后直接给出了 67.6% 的胜率,信心满满。人类选出了神牛、巫医、毒龙、影魔和隐刺,相对比较脆皮的阵容。
图 | 双方阵容
开局抢符,AI 拿下 Notail 巫医一血,在优势路用斯温,火枪和直升机刚三。随后双方对线互有斩获,Ceb 的毒龙选择劣势路拉兵线,牛头不断游走 gank,中单 Topson 隐刺对线死亡先知也可以五五开。
另一方面,AI 三核刚三的骚套路侵略性极强,频频越塔尝试击杀ana的影魔和notail 的巫医,在 JerAx 神牛的保护下,AI 并未尝到太多甜头。
10 分钟,人头数 8:9,AI经济领先 1 千,双方对线几乎平手。不过根据之前的经验,AI 的强势期即将到来。
13 分钟,AI 的死亡先知在追杀隐刺时,身背真假眼,却先放下了假眼,隐刺得以逃出生天,可以看出 AI 还是不能很好地利用真假眼。
在 18 分钟的遭遇战中,AI 击杀了过于托大的毒龙和隐刺,马上给出了 95% 的胜率。
图 | AI宣告:“我们估算的胜率为95%。”
事实证明它们并没有夸大。1分钟后,AI 在夜魇中路二塔击杀了神牛和巫医,又追上高地击杀了走位不慎的影魔,直接在 20 分钟破掉 OG 中路高地,这让解说和观众始料未及。
尽管 OG 在之后开始更加谨慎,不再贸然深入,但 AI 侵略性不减,几乎时刻都在五人抱团,满地的真眼使得隐刺几乎没有机会打探太多信息。
24 分钟,AI 再次在夜魇野区团灭 OG,但并未选择打 Roshan。
图 | 现在可以看到AI选择的战略目标
29 分钟,OG 进攻天辉野区,AI 不以为然,死亡先知甚至做出了当面反眼这样的“挑衅/勾引”动作。随后 AI 凭借神级拉扯,送给了 OG 三人团灭,顺势攻上了OG 高地,破掉了下路和上路远程兵营,扬长而去。
随后的局势几乎是一边倒,OG 不仅没有找到翻盘机会,反倒出现了几次莫名的出击和落单,脆皮阵容让 AI 逐一击破,完全无法组织有效的防守。即使神牛几次做出多人跳大,AI 仍然能够凭借微操化解,将损失降到最低,甚至秒开 BKB借势反打。
30 分钟左右,AI 成功打出超级兵,而自己的二塔都还健在。游戏在35分钟进入了垃圾时间,OG 被困在自己高地上,毫无招架之力,最终在38分钟打出GG。AI 拿下第一局。
图 | 第一局 AI 胜利,人头数 52:29
第二局,AI 选出了冰女、直升机、斯温、巫医和毒龙。OG 则是火枪、神牛、死亡先知、小鱼人和莱恩。AI 给出了 60.8% 的胜率,比第一局低了 7% 左右,然而事实并非如此。
双方正常 212 分路,对线初期和第一局相似,双方有来有回。
不过 AI 对血量和技能的判断更胜一筹,经常在极限状态下击杀 OG 英雄,尤其是冰女和直升机的强势双人组,让 OG 的死亡先知十分难受,而且因为小鱼这样的英雄对线能力较弱,AI 在 10 分钟就建立了 4 千经济优势,人头数 11:3,OG 经济被全面压制。
局势一边倒到什么程度呢?9 分半,AI 就直接给出了 95% 的胜率,比上一局快了 30 分钟。
虽然偶有绕树逃生等亮眼表现,但对线期崩盘,让 OG 完全无法招架 AI 中期的凶猛侵略。
图 | 一张图看懂第二局的OG有多惨
14 分钟,AI 就直接杀上了 OG 的上路高地,简直就像是殴打小朋友一样。19分钟,OG三路被破,只能在自家泉水种树。
仅仅 20 分钟,OG 倾三人之力,甚至都办法击杀一个20%血量的毒龙。伴随着AI 矮人直升机的超神,夜魇基地轰然倒塌。
至此,OpenAI 2:0 击败 OG!
图 | 基地崩塌前的最后一秒
在看完AI碾压OG之后,几个解说按捺不住Dota之魂,于是OpenAI尝试了一次前所未有的人机合作混战:3 个 AI + 2 个解说 VS 3 个 AI + 2 个解说。
这局表演赛的节奏明显放慢,面对人类玩家的加入,AI 显得有些“手足无措”,很少主动配合,而几个解说也苦于没有办法指挥AI——无论是打字还是游戏自带指令,都不能控制AI的行为——只好全场各自为战,或者跟着AI 抱团。
图 | 人类控制的女王满血被集火,AI剃刀和火枪溜之大吉
比赛进行了约60分钟,整体来看,AI和人类还无法做到积极互动,几乎看不到双方的亮眼配合。比如AI操纵的三个英雄经常抱团打野,却不会跟着人类一起推塔和gank,还会看着人类队友被集火,却袖手旁观,从旁边默默路过(也可能是在后台吐槽人类太菜)。
看来我们离 AI 陪玩,甚至是 AI 教练,还有很长的路要走。
OpenAI 结束 DOTA 2 三年之旅
OpenAI Dota 2 AI 首秀是在 2017 年 8 月的国际邀请赛(TI)现场,战胜了世界顶级中单选手 Dendi。那场影魔BO3 SOLO赛中,OpenAI 先下一城,Dendi 在第二局被拿下一血后选择主动放弃,最终 0:2 败于 AI SOLO 系统。根据 OpenAI 的介绍,他们的 AI 还击败了 Sumail 和 Arteezy 等明星选手。
SOLO赛之后,OpenAI 推出了可以进行 5V5 对战的“ OpenAI Five ”,并且在2018 年 8 月初以 4:1 成绩战胜了 Dota 2解说和前职业选手组成的战队。OpenAI 团队随后认为,自己的 AI 系统已经准备好挑战职业队伍了。
但是,在2018 年 8 月 22 日~24 日的 TI8 国际邀请赛现场,之前一路高歌猛进的 OpenAI Five 遭遇重击,在两场比赛中分别被职业队伍 paiN Gaming 和中国前职业选手BurNIng,xiao8,430,SanSheng和rOtk组成的明星队伍击败,原本计划三天三场的比赛,只比了两天两场就草草收尾,提前结束了 TI8 征程。
图丨 OpenAI Dota 2 项目三年来的主要进展
根据 OpenAI TI8 两场比赛之后发布的博客文章,导致失败的主要原因是对战的游戏玩家明显实力比 AI 高出不少量级 ,除此之外,缺乏战略规划也导致了 AI 的失败。纵观八月中旬和 TI8 的几场比赛,OpenAI 的系统似乎并没有展现出太多的进步,尤其是在战略方面。虽然比赛规则有所调整,但是面对更加默契和高水平的职业队伍时,AI 系统精密计算的技能释放和反应极快的微操可以惊艳观众,打赢遭遇战,却无法带来胜利。
TI8比赛之后,开发人员曾透露,OpenAI Five 中使用的模型架构也并不复杂。每一个英雄由一个单独的 LSTM 模型控制,且为一个单层的、含有 1024 个单元的 LSTM 网络,它从 BOT API 中获取数据,然后通过多个不同的动作输出接口进行控制。
OpenAI 的 Dota 2 AI 使用了256 个 V100 GPU 和 128000 个 CPU训练模型,不使用人类数据,80% 的时间自我对弈,20% 的时间和过去的版本对弈,训练中每天进行的游戏数量时长相当于大约 180 年。
因此,不少人相信,从 TI8 失利至今的大半年时间里,Dota 2 AI 系统的迭代优化又有了新的飞跃。
图丨 OpenAI Five 的网络架构图
这次比赛,OG 战队以 TI8 夺冠时的原班人马出战 OpenAI Five,但相比在2018 年夺冠时的巅峰时期,现在的 OG 战队实力已经有所下滑,Ana 回归之前,这支队伍已经几次淹死在海选中,无缘大型比赛。
而且直到比赛前,任何人都不知道 OpenAI 的 OpenAI Five 又成长到了何种境界,加之此前 AI 曾经战胜准职业选手队伍,也曾被职业选手队伍所打败,时隔大半年重出江湖,也为本次比赛带来了很强的悬念。
“对我而言,最令人着迷的一点是看机器如何找到突破游戏的方式,以及它将如何对人类的游戏方式进行反应,”OG 的 Jesse“JerAx”Vainikka 在这次比赛之前说道,“这次比赛将是一次很好的学习经历,因为我们将了解机器如何优先考虑资源并利用英雄。”
游戏 AI 的殊途同归?
随着 OpenAI Five 在今天完成 Dota 2 中的最后一战,回顾 OpenAI 探索和开发Dota 2 AI 几乎长达 3 年的过程,是时候重新思考和审视这些 AI 公司在游戏类AI开发上所付出的努力和选择的目标。
比如说,我们究竟应该如何看待开发这些游戏 AI 的必要性?无论是 DeepMind 开发的 Alphago 还是 OpenAI Five,始终有人忍不住计较,设计这些游戏AI和人类竞争根本就不公平,甚至以此来否定这种人机大战的价值。
著名的深度学习批判者、纽约大学教授 Gary Marcus 就曾在推特上指出这种不公平。与人类游戏玩家(或其他一些 AI 系统)不同,OpenAI Five 实际上并不看屏幕,而是使用 Dota 2 的“ BOT API ”来获取数据,包括从每个英雄的位置到个人法术和攻击的冷却时间等所有信息。这就为 AI “快速解决了极具挑战性的场景感知问题”,从而为 AI 提供了巨大的优势。
AI 作弊争议背后的本质问题是:人类和 AI 之间可能有所谓“公平”的博弈吗?恐怕我们等不到这样一场比赛了。因为,AI 天生就被按照比人类有优势来打造。正如 AI 游戏研究员库克所说的那样:“计算机当然要在某些方面比人类优秀。这是我们发明计算机的原因。”
图 | “眼观三十六路,耳听四十八方”的AI
在游戏中击败专业人士,也不是 OpenAI 等公司开发游戏 AI 所追求的目标。他们所希望的,是 AI 学习如何制定数以千计的小决策来实现更大的目标。Brockman 曾这样表示:“我们 Dota 项目的初衷不是为了在这个比赛称霸,是因为我们认为可以开发出能够在未来几十年内为世界提供动力的人工智能技术。”对于 OpenAI 来说,选择 DOTA2 作为人工智能测试的原因,“是因为我们认为它是一个能够帮助我们测试和开发通用 AI 技术的良好平台”。
而且,这个雄心勃勃的想法也正在走向现实。例如,用于教授 OpenAI Five 的“基础设施”之一——一个名为 Rapid 的系统就正在被用于其他项目,例如用它来使机械臂以更高水平的灵活性来操纵物体。另外,该系统可以协调数千个同时运行数百个强化学习算法的处理器,每个算法都为机器人提供动力,机器人通过游戏或模拟移动手,然后在试验结束时将其学到的内容与其他机器人同步。Rapid 目前仍在持续改进中。
图丨 Rapid 系统被用到机械手操控上
另一方面,AI 在 Dota2 中有胜有败的表现,也让人们继续反思相关的技术方向,强化学习是其中讨论度最高的话题之一。
OpenAI 创建人工智能时使用了强化学习算法。这种被认为可以实现让机器“从零开始学习”的技术看似简单,但是能让 AI 习得一些复杂的行为。它有别于传统的监督学习,不需要大量的标注数据,让 AI 在虚拟环境中通过自我尝试和奖励学会复杂的任务。对于游戏这种拥有天然优秀的模拟环境的场景,强化学习被认为可以帮助创造水平极高的游戏 AI。
图丨强化学习的原理
强化学习最出风头的案例,恐怕还是 Deepmind 开发 AlphaGo 的一战成名,尤其是 AlphaGo Zero 的诞生。两者都是强化学习发展史上里程碑式的案例。AlphaGo 结合了监督学习、强化学习和其他一些创新的辅助方法,而 AlphaGo Zero 仅仅依靠强化学习和自我对弈,尽管它也使用了预先准备的算法规则用于持续的迭代,依然比前者更遵循了强化学习的整体思路。但著名 AI 学者、新晋图灵奖获得者 Yann LeCun 认为,AlphaGo Zero 的成功很难推广到其他领域。
在 OpenAI Five 被职业队打败的过程中,AI 充分暴露了依靠这种方法抛弃人类先验经验、获取新的技能,还有一些“盲区”。
来自斯坦福的 Andrey Kurenkov 就撰写了大量有关强化学习局限性的文章,他表示,此前的比赛表明,强化学习可以处理“比大多数人工智能研究人员想象的复杂程度更高的问题”,但一些失败的结局表明,游戏 AI 需要新的方式来培养其“长期思维”。也就是说,AI 在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。他在其文章中如此总结 AlphaGo 和 OpenAI Dota2 AI 的成绩局限性所在:从零开始学习导致它们和人类学习相比,更依海量游戏指令和使用更原始的、无人能及的计算能力。
也正因为这些局限,目前我们也还没有看到有任何 AI 被广泛应用在商业级游戏中。但在接下来很长一段时间,AI 打游戏恐怕还需要通过强化学习来实现,强化学习究竟是不是让机器能够像人一样从零学习新技能的最佳方法,还需要更长时间的验证。
(
评论
查看更多