人工智能玩家发明自己的“语言”，合作“交流”以赢得纸牌游戏-电子发烧友网

机器正变得越来越具有协作性，其中既包括机器与人的协作也包括机器与机器之间的协作。不久之后，我们可能就会有能协商通行权的自动驾驶汽车，以及协助护士进行家庭护理的机器人。但首先，它们需要学会交流，而且不仅仅是通过言语交流。人类用他们的行动说了很多。踩刹车不仅会让你减速，还预示着前方可能有麻烦。双臂交叉在胸前既可以保护你，又传达出沉默的信号。

为了教会人工智能（AI）进行交流，研究人员转向了纸牌游戏。虽然人工智能很久以前就在国际象棋、围棋、某些形式的扑克和许多电子游戏中击败了人类，但桥牌和花火（Hanabi）等游戏提供了一些特殊的挑战。玩家必须在没有明确的信息共享方式的情况下进行合作（例如打出对方需要你打出的牌）。研究这两款游戏的研究人员最近开发了一些人工智能系统，这些系统发明了自己的隐式代码来协调它们的动作。

在桥牌比赛中，有四名选手，分成两队。在任何人出牌之前，玩家可以轮流叫牌。用选定的作为将牌的花色叫牌来表明你认为你的团队可以赢某个墩数。多年来，桥牌玩家们已经开发出了很多能同时让队友知道自己手里有什么排的叫牌方法。例如，一个人可能叫“两个梅花”（即使他没有梅花）来表示自己手里有很多花牌（J、Q、K）。通过这样编码过的叫牌，团队可以进行基本的对话。

伦敦大学学院（University College London）的研究人员最近在预印本文库arXiv上发表了一篇标题为“Learning to Communicate Implicitly By Ac tions”的论文。在他们的名为“策略-信念-迭代”（Policy - Belief - Iteration，简称P-BIT）的系统中，每个AI玩家都有两个神经网络。一个网络学习根据叫牌来推断队友手里有什么牌。另一个学习根据对队友手里有的牌的推断和自己手里的牌来做出恰当的叫牌。在训练过程中，AI玩家会因为自己的叫牌提高了队友所做推断（推断自己手里有什么牌）的准确性而得到奖励。

在经过150万手的练习之后，这对AI搭档已经发展出了它们自己的约定，比如用叫一种花色的三张牌的方式来表明这种花色的六张牌可能是一个理想的定约。这对AI玩家击败了没有进行交流或对它们队友的信念进行建模的基线AI玩家。该论文的作者之一、伦敦大学学院的计算机科学家Jun Wang表示，这些AI玩家还无法与人类玩家相比，但他发现初步结果“是非常鼓舞人心的”。

一款名为花火（Hanabi）的新型纸牌游戏也具有类似的交流挑战。在这款需要合作的类单人纸牌游戏中，两到五名玩家每人各持有四到五张牌，每张牌都具有一种颜色并带有一个数字，玩家需要轮流将它们按正确的顺序放到彩色的纸牌堆上。但他们看不到自己的牌，只能看到队友的牌。

在每个回合中，他们可以出一张牌、丢弃一张牌，或者给另一位玩家一个提示。他们不能告诉对方可以出哪张牌，而是只能说对方手中的哪些牌是某种颜色的或是带有某个数字的。在某些情况下，指出队友手中的某张牌的颜色，可能是向队友示意他接下来应该打出这一张牌。信息不仅可以来自显性线索本身（牌的颜色），还可以来自为什么选择该线索而不是其他线索的隐性内容。

最近，DeepMind Technologies和牛津大学的一个团队在arXiv上发表了一篇标题为“Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning”的论文。论文中介绍了一个针对双人版本花火游戏的机器学习系统。他们的“贝叶斯动作解码器”（Bayesian Action Decoder，简称BAD）也使用神经网络，让每个人工智能玩家尝试推断其队友的信念。为了避免无限递归地思考你的队友在思考你在思考什么，这个系统两个玩家外部创建了一套“公共信念”。

这些公共信念代表了有关游戏状态和之前动作的所有公开可用信息，以及在没有实际查看其中任何一手的情况下可能说的关于所有手的话。然后，“公共代理人”使用神经网络将这些信念转换为关于每个玩家应该做什么以及他们的队友手中可能拿着怎样的牌的指示。然后，每个玩家在公共代理的指导下，根据自己的观察，采取行动。

尽管这些人工智能玩家并没有因为交流而获得特别的奖励，但打信号却产生了另外的作用。例如，指出红牌或黄牌意味着AI队友应该打出最近抽到的牌。研究人员计算出，通过暗示分享的信息中有40%是隐性的。这种编码通信帮助他们的系统近乎完美地运行，平均得分为24分（满分25分），比之前最好的机器人高出约1分。（对于人类来说，即使有使用肢体语言的不公平优势，得分超过20分就是不错的。）

这两个系统，即用于桥梁的P-BIT和用于Hanabi的BAD，都依赖于给予人工智能的一些东西，比如人的“心理理论”，或者对他人的信念和意图的认知。这种推理在人际交往中普遍存在。如果你问你的朋友他的婚姻状况，而他把话题转到纽约大都会队，那么他的话就不仅说明了关于大都会队的一些情况，也说明了他的婚姻状况。

为了让AI能够高效、优雅地处理与人之间或彼此之间的互动，它们需要理解隐性信号，而纸牌游戏是实现目标的途径之一。一家名为NukkAI的创业公司专注于为桥牌打造更好的人工智能，并且正筹集了数百万美元，期望最终将其技术应用于现实世界的问题。在最近的一篇标题为“The Hanabi Challenge: A New Frontier for AI Research”论文中，DeepMind称花火为“人工智能研究的一个新前沿”，并提供了一个开源测试平台。

尽管DeepMind的BAD系统通过反复与同一队友玩游戏来制定出约定，但他们在上面那篇论文中指出，更高级的任务将是对不熟悉的玩家的行为进行动态推理。他们在这个场景下测试了一些系统，而没有一个系统的平均得分超过4分。

研究机器人和通信的康奈尔大学计算机科学家Julia Proft也强调了即时推理的重要性。她最近发现，当AI花火玩家使用隐性信号时，它们更有可能被判断为是人类玩家。这一发现发表在标题为“Implicit Communication of Actionable Information in Human-AI teams”的论文中。在谈到关于习得约定的论文时，她说：“他们做的事情真酷。”但她又加上一句说，“有趣的问题”是来自上下文的自发推理。

不过，牛津大学的计算机科学家、DeepMind那两篇论文的合著者Jakob Foerster说：“我并不认为我们有可信的方法来开始考虑自发推理需要什么。说实话，我们离去考虑那个问题还相当远。”