DeepMind 公司因为研制出会下棋的人工智能AlphaGo和AlphaZero而声名鹊起,如今他们将注意力转向了另一种棋盘游戏:强权外交(Diplomacy),也被称为外交或者外交风云,是经典的桌面游戏之一。该游戏与围棋不同,它是七人游戏,需要游戏玩家既竞争又合作,并且每回合玩家都会同时进行移动,因此,每个玩家都必须推理其他玩家的想法,非常复杂。
研制一个能玩外交游戏的人工智能软件,DeepMind公司的计算机专家Andrea Tacchetti表示:“与游戏Go或国际象棋相比,这是一个本质上不同的问题。” 去年12月,Tacchetti和合作者在NeurIPS会议上就其系统发表了一篇论文,该论文介绍了能玩外交游戏的AI系统策略。
“外交”是一种策略游戏,在欧洲地图上划分为75个省。玩家建立并动员军队占领各省,直到控制了大部分补给中心的玩家获胜。玩家每回合写下自己的行动,然后执行。他们可以攻击或防御对方玩家,或者支援对方玩家的进攻和防御,建立联盟。在完整版中,玩家可以协商,为了方便人工智能研究,DeepMind公司使用了简单版的“No Press”策略,不需要人工智能软件发布策略与其他玩家进行沟通。
从历史上看,人工智能使用人工制定的策略来发挥决策作用。2019年,蒙特利尔研究所的Mila通过使用深度学习系统取得了胜利。他们基于150000个人类游戏的数据集,训练了一个称为DipNet的神经网络来模仿人类。DeepMind从DipNet版本开始,使用强化学习(一种反复试验)来完善它。但是,仅通过反复试验来探索可能性会带来问题。因此,他们调整了强化学习算法。在训练过程中,他们在每一步中都对对手的可能举动进行采样,计算出在这些情况下平均效果最佳的行动,然后训练自己的权重以偏向于此行动。经过训练,它跳过了采样过程,仅根据其学习的知识进行工作。Tacchetti说:“我们论文的信息是:我们可以在这样的环境中进行强化学习。” 他们设计的一个AI玩家与六个DipNet的AI赢了30%的时间(有14%的机会)。一个DipNet对抗他们的七个,仅赢得了3%的时间。
今年4月,Facebook将在ICLR会议上发表一篇论文,描述他们在“No Press”版本的外交游戏中的研究成果。他们建立了类似DipNet的网络,但是没有添加强化学习的元素,而是添加了一个“SearchBot”搜索玩家策略,SearchBot通过玩几回合来评估玩家的每种潜在策略(假设每个人都根据神经网络的首选选择后续行动)。策略不是一个最佳行动组合,而是由50个可能行动组成的一组概率(由神经网络建议)。
在真实游戏中进行这样的探索会减慢SearchBot的速度,但可以使它更优于DipNet。SearchBot在外交游戏网站上与人类进行了匿名比赛,在玩家中排名前2%。Facebook的计算机专家、论文的共同作者亚当·勒勒(Adam Lerer)说:“这是第一个被证明具有能与人类竞争的机器人。”
责任编辑:lq
-
人工智能
+关注
关注
1791文章
47146浏览量
238118 -
强化学习
+关注
关注
4文章
266浏览量
11241 -
DeepMind
+关注
关注
0文章
130浏览量
10838
原文标题:DeepMind又出AI大招
文章出处:【微信号:robotmagazine,微信公众号:机器人技术与应用】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论