0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

继OpenAI发布Dota2的团战AI后,DeepMind今天也发布了自家的最新研究

zhKF_jqr_AI 来源:未知 作者:李倩 2018-07-08 09:52 次阅读

编者按:继OpenAI发布Dota2的团战AI后,DeepMind今天也发布了自家的最新研究,一些可以互相协作,也可以和人类选手合作的人工智能机器人。以下是论智对DeepMind博文的编译。

在游戏项目中,让AI掌握策略、理解战术并进行团队合作是非常重要的。现在的强化学习经过发展,我们的智能体在《雷神之锤III:竞技场》的夺旗比赛(Capture the Flag)中的表现达到了人类水平,它们在团队合作方面展示出了较高水准。

《雷神之锤III:竞技场》的夺旗模式(CTF)是一款以第一人称视角展示的多人游戏,参赛者分成两组,红队和蓝队。每组队员的目标是夺取对方的旗帜并将它带回自己的基地,同时保护己方旗帜。杀死对手得1分,自己非正常死亡扣1分,夺取对方旗子得3分,杀死夺旗者得2分,重新拿到己方旗子得1分,成功夺取一次旗子(将旗子送回己方基地)得5分。五分钟内有较多旗子的一方获胜。

我们训练的四个智能体在室内和室外两种环境下进行对战,并逐渐修炼到能够夺旗的水平

对人类来说,每个个体都有自己的目标和行动方式,但我们仍然能在团队和组织中展示出集体智慧,我们将这一设置称为“多智能体学习”:多个智能体必须独立行动,但是要学习与其他智能体交互合作。这个问题非常困难,因为环境是在不断变化的。

为了研究这一问题,我们以各类3D第一人称视角的电子游戏为研究对象,它们代表了大多数游戏的形式,能反映各类玩家的策略,因为其中包括了他们对游戏的理解、手眼配合以及团队计划。我们的智能体所面临的挑战是直接从原始像素中学习,从而输出动作。

实验中我们选用的《雷神之锤III:竞技场》游戏是现在许多第一人称角色游戏的基础,我们训练智能体像单人一样学习和行动,但是仍要在团队间进行合作,共同对抗敌方。

从一个多智能体的角度,CTF需要玩家既能和队友完美合作,也要与敌人对抗,不论在什么风格下都要保持水平的稳定。

为了让这一过程更有趣,我们还设计了一个CTF的变体,其中的平面地图每一场都不一样。结果我们的智能体被迫学习到了一种“通用策略”,而非靠对地图的记忆获胜。除此之外,为了评估游戏场地,我们的智能体用人类的方式感受了一下CTF的环境:它们通过一个虚拟游戏控制器观察一连串的像素图像和动作。

CTF的环境不断更新,所以智能体必须适应陌生地图

我们的智能体必须从零开始学习在陌生环境中如何观察地形、行动、合作、竞争,这一切都要从每场比赛的单一强化信号中得来:不论它们所在队伍是否获胜。这是一个具有挑战性的学习问题,而解决方法基于三个强化学习的基本问题:

与训练单一智能体相反,我们训练的是多个智能体,它们通过与各种队友和对手的互动来学习。

团队里的每个智能体都从它自己的内部奖励信号中学习,从而让智能体生成自己内部的目标,例如获得一面旗帜。两阶段的优化过程优化了智能体内部的奖励,同时用内部奖励的强化学习学习了智能体的策略。

智能体会在快慢两种速度下进行训练,这样会提高他们利用内存并生成连续动作的能力。

最终训练出的智能体(FTW)在玩CTF上表现出了很高的水准。重要的是,该智能体在各种地图、队员数量的情况下,表现得都很稳定。不论是在户外模式还是室内模式,或者有人类参与的比赛中,FTW都表现的很好。

我们组织了一场联赛,其中有40名人类玩家,将人类和智能体随机组合分配到游戏中。

FTW智能体学习之后比基准的方法更强大,同时超过了人类选手的取胜率。事实上,在对参赛者的评估上,智能体的合作能力比人类更强。

智能体在训练时的表现与人类的对比

理解智能体的内部机制

为了了解智能体是如何表示游戏状态的,我们查看了智能体神经网络的活动形式。下面的图表展示了游戏过程中的情形,其中密密麻麻的点根据CTF在游戏中的状态分成不同的颜色,根据颜色可以判断:智能体在哪个房间?旗子的状态如何?能看到哪个队友或对手?通过观察颜色相同的点,我们发现在相似状态的智能体动作也相似。

各色点点代表游戏中各种智能体所处的状态和位置

我们不会告诉智能体游戏的规则,而是让他们自己学习基础概念。事实上,我们可以找到具体编码有重要游戏状态的神经元,比如当旗子被夺走时活动的神经元,或者队友拿到旗时活动的神经元。想知道更多智能体细节,可查看原论文。

除了这些多样的表示,智能体实际上是怎样运作的?首先,我们注意到智能体的反应时间很快,并且还有精确的标记器。但是当人为地降低他们的精度和反应时间,我们看到导致成功的只有一个因素。

智能体的精确度和反应时间比人类要高

通过无监督学习我们创建了智能体的原始动作,发现智能体实际上是在模仿人类行为,例如跟随队友或者在对手的基地“安营扎寨”。这些动作都是在训练中通过强化学习和进化得来的。

结语

最近人工智能在星际争霸II和Dota 2这样复杂的游戏中都取得了不小的进步,虽然这一项目的侧重点在于“夺旗”游戏,但是做出的贡献是通用的,研究人员表示,他们很高兴看到其他研究者在不同环境中应用这一技术。在未来,他们将对目前的强化学习和基于多个智能体的训练方法进行改进。总的来说,这项工作突出了多智能体训练的潜力,有助于它们与人类的合作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    28189

    浏览量

    206454
  • 智能体
    +关注

    关注

    1

    文章

    131

    浏览量

    10567
  • DeepMind
    +关注

    关注

    0

    文章

    129

    浏览量

    10818

原文标题:不论队友是机器人还是人类,DeepMind智能体学会了复杂合作

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DotA2》同时在线人数首次突破100万,全民打年兽?

    早在2015年22日,Steam同时在线人数最高曾超过840万名PC玩家。当时根据Steam统计,当时《DotA2》是玩的人最多的游戏,其次是《CS:GO》,《军团要塞2》,《足球经
    发表于 02-26 15:06

    未来的AI 深挖谷歌 DeepMind 和它背后的技术

    哪些了解?今天就来看一下有关Google DeepMind的一切吧!Google DeepMind的历史DeepMind Technologies于2010年在伦敦成立,但是4年
    发表于 08-26 12:04

    全志科技正式发布首款AI语音专用芯片R329

    3月18日消息,推出智能语音专用处理器R328之后,近日全志科技正式发布主打AI语音专用的重磅产品R329,这是全志科技首款搭载Arm中国全新AI处理单元(AIPU)的高算力、低功耗
    发表于 11-23 14:18

    人工智能OpenAI打败Dota2 玩家,人工智能DeepMind又在雷神之锤3超越人类水准

    根据介绍,DeepMind使用了强化学习(reinforced learning)来促进AI学习游玩精简版《雷神之锤3:竞技场》多人夺旗模式。这些机器人们已经通过“内战”游玩了45万场多人模式,每
    发表于 07-11 10:50 1626次阅读

    AI对于人类的竞争性和辅助性

    近日,OpenAI的团队在5V5的对战中战胜了Dota2的顶尖业余玩家,这是Alpha Go大战柯洁之后,AI再一次战胜人类的历史性时刻。此次参与到
    发表于 07-05 05:10 563次阅读

    AI在简化了的DOTA2击败前1%玩家,学习能力很出色

    ”、没有隐身装备、没有召唤单位和幻象、以及少了一些装备等。这也使整个比赛简化了不少,从另一个角度看AI仍然没能力完全加入人类版的DOTA2游戏中。
    发表于 06-29 19:39 588次阅读

    AI能相互协作的玩游戏,玩Dota2胜了人类玩家

    据悉,OpenAI开发了出了一套名为“OpenAI Five”的算法,虽然单独来看这种算法并没有什么突破,只是针对玩Dota2的一种神经网络,并且此前曾有
    发表于 06-27 05:29 612次阅读

    OpenAI的由5个神经网络组成的OpenAI Five,已经开始击败Dota 2的业余玩家队伍

    Dota游戏是一个典型的AI难题,它综合决策周期长,空间大而且敌我双方是在非完全信息下博弈。OpenAI去年解决1v1的问题
    的头像 发表于 06-27 12:01 8757次阅读

    AI首度在电竞游戏《DOTA 2》击败人类

    经过又一年的努力,OpenAI表示,他们已经成功制作一款能够在《DOTA 2》中以「团体」形式,击败五名顶尖业余玩家的AI软体「
    的头像 发表于 06-29 15:16 3090次阅读

    Dota2败给OpenAI-Five究竟是为什么?

    OpenAI昨日发布研究成果,宣布Dota2 5v5在限定条件下(英雄阵容固定,部分道具和功能禁用)战胜人类半职业选手。本文主要对其模型技术架构做一些分析总结。
    的头像 发表于 07-05 16:17 4834次阅读

    AI之间能团队合作吗?AI团队挑战Dota2职业选手团队

    近日,马斯克和Sam Altman所创立的人工智能非营利组织OpenAI宣布:其开发的AI能够组队在5V5对中战胜Dota2顶尖业余玩家,这些人类玩家的平均天梯分数超过4200分。这
    的头像 发表于 07-17 11:51 3483次阅读

    5个AI队伍竟然可以在《Dota2》战胜人类5人队伍

    之前AI在中单solo打败知名选手Dendi的事情过了很久了,同团队开发的5个神经网络AI队伍已经能在《Dota2》中战胜业余的人类5人队伍。
    的头像 发表于 07-25 11:18 3047次阅读

    最后一 AI 2:0吊打世界冠军DOTA2 人类完败

    “最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军赛后,OG 队长 N0tail 在接受采访时表示,“AI 的表现超乎想象,它虽然在插眼等方面还有待进步,买活的时机
    发表于 07-05 10:09 959次阅读

    人工智能战队OpenAIDota2人类最强战队的最终决战

    人工智能战队OpenAIDota2人类最强战队,人工智能在围棋上击败人类之后,很多技术人员就开始展望 AI 在视频游戏中的表现。201
    发表于 07-04 11:09 1378次阅读

    AI如何对抗Dota人类游戏高手

    AI如何对抗Dota人类游戏高手?OpenAI这样回答
    的头像 发表于 08-01 15:01 575次阅读