人工智能在计算机兵棋推演领域的应用-电子发烧友网

人工智能在计算机兵棋推演领域的应用

0 引言

1956 年达特茅斯会议上约翰•麦肯锡首次提出了人工智能（Artificial Intelligence，AI）的概念，当初定义的基本范围是“用计算机模拟人的逻辑思维”。可以看出，这一定义并没有包含人类的学习能力、归纳总结能力、决策能力等，可以认为是狭义人工智能范畴。近些年来，随着模糊逻辑和遗传算法等技术的成熟，特别是神经网络的发展及深度学习的兴起，人工智能更倾向于指依托计算机运用数学算法模仿人类智力，让机器“学会”人类的分析、推理、思维乃至决策的能力。

兵棋是一种用于战争研究和训练的工具，有着近 200 年的发展历史。随着计算机与信息技术的发展，早期的手工兵棋逐渐演化为现代的计算机兵棋。1980 年代后，计算机兵棋技术蓬勃发展，先后出现了多型军用和民用的兵棋系统，其中最为著名的当属美军的联合战区级兵棋系统（JTLS）和联合冲突战术兵棋系统（JCATS）。兵棋推演可以在作战方案优化、训练教学支撑、作战试验评估等领域发挥出较好的作用。

2016 年，人工智能 AlphaGo[1-4]以 4∶1 的战绩战胜世界围棋冠军李世乭；2017 年初，AlphaGo 化名 Master（大师）先后战胜 15 名世界围棋冠军，实现 60 连胜；2017 年 5 月，AlphaGo 再次以 3∶0 的战绩战胜当今围棋排名第一的柯洁。人机对抗，尤其在棋类领域的博弈，开始彻底倒向有人工智能支撑的计算机，尽管兵棋非简单等同于围棋、象棋，但 AlphaGo 的连续成功，还是激起了我们将人工智能技术深度融合应用于兵棋推演领域的强烈意愿。

1 兵棋特点

兵棋推演的实施过程主要如下：在导演部及导调机构的导控下，由参演人员在想定的战场环境下，与假定的蓝军部队进行指挥层面的对抗，完整实现演训准备、组织实施和总结评估全流程。

1.1 兵棋是棋

与常规棋一样，兵棋体现了两个核心因素，（1）规则制定的客观性；（2）行棋过程的自由性。兵棋系统的基本构成要素主要有棋子、棋盘、规则、骰子（随机数发生器）、回合以及裁决表。兵棋中的棋子、棋盘、裁决表等都是具象化、数字化、精确化棋的客观特征体现。兵棋的核心是兵棋规则，包括规定棋子在地图上如何移动的行棋规则和判定两支部队相遇时交战结果的裁判规则。兵棋的行棋过程又称为兵棋推演，推演者采取类似博弈的过程轮流行棋，另设裁判者依据裁判规则对场上局势进行裁定。此外，推演过程中还通过掷骰子模拟战场上的随机因素。

1.2 兵棋非“棋”

兵棋推演往往是要展现实际作战过程，很难通过“下棋”中严格的“你来我往”的回合制来全面体现。兵棋推演需要通过以上六个基本要素之间的相互作用，充分体现了实际战争过程中的战场复杂性、战况紧迫性、战情随机性、战果规律性等，需要能逼真地反映实际作战过程，陆、海、空、火、天、网等联合作战的特点，需要各方根据态势发展进行不断地判断和决策，从而模拟出实际的作战流程及作战效果[5-13]。战争还有一个显著的特点就是不可重复性，同样的基础对抗条件，在不同的随机因素影响下会产生完全不同的结果。由此可见，兵棋推演需要模拟的作战要素繁多，关系错综复杂，态势瞬息万变，常规的“棋”很难涵盖完整这么一个复杂系统。

1.3 计算机兵棋

兵棋推演本身对工具支撑并无太多要求，其流行之初也是以手工兵棋为主要手段。传统手工兵一般以棋子进攻、防御二值描述，采用的是力量对比方式，在增加随机因素的基础上，用表格的形式进行裁决以得到交战结果。

其后，为了节约人力和时间、提高推演效率，体现更复杂的联合作战行动模拟效果，开始出现了计算机兵棋。计算机兵棋推演体系采用完善的军事地理系统软件，提供规范化的作业平台，军事应用人员可以更加聚焦于对抗推演本身，使兵棋推演过程和实际作战指挥结合得更密切。随着现代计算机兵棋理念的发展，支撑规模化指挥对抗模拟的复杂兵棋系统，也开始逐步打破传统兵棋回合制的推演过程，向实时推演转变。在计算机兵棋推演环境中，作战兵力的动态性、作战过程的随机性、作战决策的多样性更能造就兵棋推演环境中的复杂性。

2 深度学习与强化学习

人工智能涉及的关键技术十分广泛，其中神经网络、强化学习和深度学习技术是其重要的代表。

神经网络技术从信息处理角度对人脑神经元网络进行抽象，建立某种简单模型，按不同的连接方式组成不同的网络。体现出了卓越的自我学习、反馈联想、高效寻优的能力特点。而在神经网络技术基础上发展起来的深度学习和强化学习对人工智能技术的成熟和推广起到了重要的作用。

具有感知能力的深度学习（deeplearning， DL）是基于神经网络上的一种再升级，是一种通过对大量有效样本的学习，形成对事物特征的提取、分类和解读的方法。

深度学习通过建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来获取、分析和解释数据，通过无监督的预训练，有监督的逐层训练、微调训练等过程，逐步提炼出事物内在的关联关系、结构关系和逻辑关系等。

目前典型的深度学习模型包括：卷积神经网络、深度置信网络（deep belief network， DBN）、堆栈自编码网络（stacked auto-encoder，SAE）和递归神经网络（recursive neural network，RNN）等。

具有决策能力的强化学习（reinforcement learning，RL）充则分融入了试错机制，并以此与环境进行信息交互，通过有效累积奖赏的方式来学习到最优策略，这几乎就是生物有效适应环境的途径。强化学习系统通常由 4 个基本部分组成：状态 s，动作 a，状态转移概率 Pas,s′和奖赏信号 r。整个策略途径 π：S→A 被定义为从状态空间到动作空间的映射，智能算法依据上述策略途径 π 选择并执行动作 a。以概率 Pas,s′从当前状态 s 转移到下一状态 s′，过程中与环境进行信息交互，依据接收到的奖赏反馈信号 r，通过值函数估计当前策略途径π的优劣程度，从而进一步优化调整策略，力求累积最大化的奖赏。目前常用的强化学习方法包括蒙特卡罗、SARSA 学习、策略梯度和自适应动态规划等。

深度学习具有较强的感知能力，使得从海量原始数据中提取高水平特征数据变成可能，但是缺乏一定的决策能力。而强化学习具有决策能力，又不擅长于感知问题。既然感知和决策是人工智能技术的核心能力体现。

因此，将两者结合起来，形成优势互补，就为提高复杂系统的感知决策能力提供了解决思路。这一思路同样适用于复杂的计算机兵棋领域。

3 人工智能对兵棋推演的影响

人工智能的快速发展，将计算机兵棋的作用从节约人力和时间、提高推演效率、支撑复杂推演提升到了打造指挥对抗领域的智能蓝军和辅助参谋的高度。所谓智能蓝军，就是让系统充当既定假想“蓝军”“绿军”参加演习。通过对有限样本数据的不断深度学习、强化学习，使得对手变得更加专业、更像假想蓝军，从而实现局部乃至全局的人机对抗。所谓辅助参谋，就是计算机系统充当隐藏于幕后的我方部分指挥力量、参谋力量，实现识别态势、发布计划、自主决策、监控行动、调整任务等功能，为我方指挥提供实时精准参谋。

4 问题及解决途径

人工智能迅猛发展，核心技术突飞猛进。但人工智能技术在计算机兵棋领域的深入发展也存在以下的不确定性，其根源还在“棋”与“战”固有的巨大差异，还在于如何将全面感知和精准决策的根本目标在兵棋领域实现。

（1）有效样本的获取。目前战术、战役乃至战略层级的计算机兵棋平台百花齐放、层出不穷，先不论其自身的完善性、置信度，就目前基于上述平台的推演数据而言，基本属于量多质低的情况。在未能深入、全面研究假想“蓝军”的情况下，其指挥环节的战术战法往往就发散为自由发挥的“红军”思想。同理，在无逼真“蓝军”模拟的情况下，“红军”的指挥思路也更无针对性可言，用于支撑深度学习的数据样本的有效性和标签性均难以保证。所以，人工智能技术若想在计算机兵棋领域得以深入发展，需要确立可作为各类标签数据的基本标准，参透并运用好特定“蓝军”的战术战法，生产出涵盖所需标签类别的足够数量数据，用以支撑深度学习。

（2）信息感知与研判。常规棋盘是透明的，是一种典型的开放式信息感知状态下的博弈。当前的棋面信息对于双方棋手来说是完全公平和透明的，棋手每走一步，都可以根据当前的盘面信息做出决策。

而战争过程并不是全透明的，甚至有时故意假亦真时真亦假，往往会释放出战争迷雾，须要通过综合情报侦察和分析来获取有效、真实战场信息，这决定了兵棋推演完全应该是一种信息非对称条件下的动态指挥博弈。兵棋推演过程若没有情报探测、战场感知等要素的支撑，就无法体现“交战”双方在感知层面的手段高低和能力差异。若无法通过强化学习手段让人工智能逐步掌握剥离战争迷雾、获取有用信息的研判和决策能力，人工智能技术也将无法进一步发挥打造“智能蓝军”和“辅助参谋”的作用。

（3）规则的确定性。一般棋类博弈的规则是确定的、清晰的，规则对于双方也都是同等的、公平的，对抗的初始条件也是对等的。而在兵棋推演领域，由于对抗双方实力可能不对等、对抗初始态势可能不对等，使得对抗的初始条件也不可能按对等来设置。指挥员处理推演过程复杂的实际战场问题主要依赖于专业训练和指挥经验，而专业训练又依赖于军事理论知识和战争推演经验的综合积累。

兵棋自身的复杂性和这种互为因果的重复迭代性决定了兵棋在规则层面也在不断自我完善，需要不断将经验层面的乃至情感层面的积累进一步提炼为可解读、可执行的推演规则。

推演规则的这种不断再理解、再完善状态，会让人工智能技术在某些特殊情况处理上无所适从，增加了深度强化学习的难度。

5 结语

人工智能技术的发展将计算机兵棋的作用向前进了一大步，使之从条件支撑的角色转变为深度参与的角色。但其中支撑强大感知和决策能力的深度强化学习技术也还处于不断发展过程完善过程中。考虑到作战推演的复杂性，人机结合可能是当前一个比较稳妥的过渡的方式，暂且将人的优势和机器优势相结合来解决推演的实际问题。通过不断摸索、不断学习，相信在兵棋推演领域人工智能技术将与人的指挥水平形成共同进步的双赢局面。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉