一文看懂AI算法的秘密-电子发烧友网

这篇文章的主角是AlphaGo，谷歌DeepMind团队开发出的围棋AI。其凭借着2016年击败全球顶尖棋手李世石的壮举而广受瞩目。下面就随网络通信小编一起来了解一下相关内容吧。

围棋是一种古老的棋类游戏，每一步都存在诸多选择，因此接下来的落子位置很参议会预测——要求对弈棋手拥有强大的直觉与抽象思维能力。正因为如此，人们长久以来一直认为只有人类擅长下围棋。大多数研究人员甚至认定，还需要数十年才会出现真正具备这种思考能力的AI。但如今距离AlphaGo对李世石的比赛已经过去了两年(3月8日至3月15日)，而本篇文章正是为了纪念这个伟大的日子!

不过更可怕的是，AlphaGo并没有停止自己的前进脚步。8个月之后，它在某围棋网站上以“Master”为名与全球各地的冠军棋手进行了60盘职业对弈，且拿下全胜成绩。

这当然是人工智能领域的一项巨大成就，并在全球引起了一股新的讨论热潮——我们到底该对人工智能的发展速度感到兴奋，还是担心?

今天，我们将以DeepMind在《自然》杂志上发表的原始研究论文作为基础，逐段对其内容进行简单清晰的解读，详细介绍AlphaGo是什么以及它的工作原理。我也希望大家能够在阅读本文之后，不再被媒体头条抛出的耸人听闻的标题所恐吓，而真正对关于人工智能的发展感到振奋。

当然，你不需要掌握围棋技巧，也同样可以理解本文的观点。事实上，我本人只读过网络百科上的一丁点围棋说明。相反，我其实会使用基础的国际象棋示例来解释相关算法。大家只需要了解双人棋类游戏的基本规则即可——每位选手轮流行动，最后将产生一位赢家。除此之外，你不需要了解任何物理学或高数知识。

这样尽可能降低入门门槛，是为了能让刚刚接触机器学习或者神经网络的朋友更容易接受。本文也刻意降低了表述复杂度，也是希望大家能把注意力尽量集中在内容本身。

众所周知，AlphaGo项目的目标在于建立一款AI程序，并保证其能够与世界顶级人类选手在围棋领域一较高下。

为了理解围棋带来的挑战，我们首先聊聊与之类似的另一种棋类运动——国际象棋。早在上世纪九十年代初，IBM公司出打造出深蓝计算机，其在国际象棋比赛中击败了伟大的世界冠军加里·卡斯帕罗夫。那么，深蓝是如何做到这一点的?

事实上，深蓝使用了一种非常“暴力”的作法。在游戏的每一步，深蓝都会对所有可能作出的合理棋步作出考量，并沿着每种棋步探索以分析未来的局势变化。在这样的前瞻性分析之下，计算结果很快形成一种千变万化的巨大决策树。在此之后，深蓝会沿着树状结构返回原点，观察哪些棋步最可能带来积极的结果。然而，何谓“积极的结果”?事实上，众多优秀的国际象棋棋手为深蓝精心设计出了国际象棋策略，旨在帮助其作出更好的决策——举例来说，是决定保护国王，还是在盘面的其它位置获得优势?他们针对此类目的构建起特定的“评估算法”，从而比较不同盘面位置的优势或劣势权重(IBM公司将专家们的象棋策略以硬编码形式引入该评估函数)。最终，深蓝会据此选择出经过精心计算的棋步。在接下来的回合中，整个过程再次重复。

这意味着，深蓝在每一步之前都会考量数百万个理论位置。因此，深蓝最令人印象深刻的表现并不在于人工智能软件层面，而体现在其硬件之上——IBM公司宣称，深蓝是当时市场上最为强大的计算机之一。其每秒能够计算2亿个盘面位置。

现在让我们回到围棋方面。围棋显然更为开放，因此如果在这里重复深蓝的战略，将根本无法获得理想效果。由于每个棋步都拥有过多可选择的位置，因此计算机根本无法涵盖这么多潜在的可能性。举例来说，在国际象棋的开局当中，只有20种可能的下法; 但在围棋方面，先手选手将拥有361个可能的落子点——而且这种选择范围在整个对弈过程中一直非常广泛。

这就是所谓“巨大搜索空间”。而且在围棋当中，判断某个特定盘面位置的有利或不利权重并没那么容易——在官子阶段，双方甚至还需要再排布一阵才能最终确定谁才是胜利者。但有没有一种神奇的方法能够让计算机在围棋领域有所建树?答案是肯定的，深度学习能够完成这项艰巨的任务!

因此在本次研究当中，DeepMind方面利用神经网络来完成以下两项任务。他们训练了一套“策略神经网络(policy neural network)”以决定哪些才是特定盘面位置当中最为明智的选项(这类似于遵循某种直观策略选择移动位置)。此外，他们还训练了一套“估值神经网络(value neural network)”以估算特定盘面布局对选手的有利程度(或者说，下在这个位置对赢得游戏这一目标的实际影响)。他们首先使用人类棋谱对这些神经网络进行训练(也就是最传统但也非常有效的监督式学习方法)。经历了这样的训练，我们的人工智能已经可以在一定程度上模仿人类的下棋方式——这时的它，就像一位菜鸟级人类选手。而后，为了进一步训练神经网络，DeepMind方面让AI与自己进行数百万次对弈(也就是“强化学习”的部分)。如此一来，凭借着更为充分的练习，AI的棋力得到了极大提升。

凭借这两套网络，DeepMind的人工智能方案就足以拥有等同于此前最先进的围棋程序的棋艺水平。二者的区别在于，原有程序使用了此前更为流行的预置游戏算法，即“蒙特卡洛树搜索(Monte Carlo Tree Search，简称MCTS)”，我们将在稍后具体进行介绍。

不过很明显，到这里我们还没有谈到真正的核心。DeepMind的人工智能方案绝不仅仅依赖于策略与估值网络——其并非利用这两套网络来替代蒙特卡洛树搜索; 相反，其使用神经网络以进一步提升MCTS算法的成效。实际结果也确实令人满意——MCTS的表现达到了超人的高度。这种经过改进的MCTS变种正是“AlphaGo”，其成功击败了李世石，并成为人工智能发展历史上最大的突破之一。

下面让我们回想一下本文的第一段内容。上述提到，深蓝计算机是如何在国际象棋的每一步当中构建起包含数以百万计盘面位置与棋步的决策树——计算机需要进行模拟、观察并比较每一种可能的落点——这是一种简单且非常直接的方法，如果一般的软件工程师必须要设计出一种棋类程序，那么他们很可能会选择类似的解决方案。

但让我们想想，人类是怎样下棋的?假设目前您身处比赛中的特定阶段。根据游戏规则，你可以作出十几种不同的选择——在此处移动棋子或者在那里移动皇后等等。然而，你真的会在脑袋里列出所有能走的棋步，并从这份长长的清单中作出选择吗?不不，你会“直观地”将可行范围缩小至少数几种关键性棋步(这里假定您提出了3种明智的棋步)，而后思考如果选择其中某一种，那么棋盘上的局势将发生怎样的转变。对于其中每一种棋步，你可能需要15到20秒的时间进行考量——但请注意，在这15秒内，我们并不是在非常精确地推衍接下来的交锋与变化。事实上，人类往往会在未经太多思考的情况下“抛出”一些由直觉引导的选择结果(当然，优秀的选手会比普通选手想得更远更深)。之所以这样做，是因为你的时间有限，而且无法准确预测你的对手会勾勒出怎样的后续应对策略。因此，你只能让直觉引导自己。我将这一部分思考过程称为“铺展”，请大家在后文中注意这一点。

在完成了对几种明智棋步的“铺展”之后，你最终决定放弃这种令人头痛的思考，直接下出你认为最科学的一步。

在此之后，对手也会作出对应的回应。这一步可能早在你的预料当中，这意味着你对于下一步要做的事情更具信心——换言之，不必耗费太多时间进行后续“铺展”。或者，也可能你的对手下出了一手妙招，导致你被迫回防并不得不更谨慎地思考下一步选择。

游戏就这样持续进行，而随着局势的推进，你将能够更轻松地预测每步棋的结果，铺展耗时也将相应缩短。

之所以说了这么多，是希望以较为浅显的方式为大家讲述MCTS算法的作用——它通过反复构建棋步与位置“搜索树”以模拟上述思考过程。但其创新之处在于，MCTS算法不会在每个位置(与深蓝有所不同)都进行潜在棋步推衍; 相反，其会更智能地选择一小组合理棋步并加以探索。在探索过程中，它会“铺展”这些棋步引发的局势变化，并根据计算出的结果对其加以比较。

(好了，只要理解了以上内容，本文的阅读就算基本达标。)

现在，让我们回到论文本身。围棋是一种“完美信息游戏”。也就是说，从理论层面讲，无论您身处这类游戏的哪个阶段(即使刚刚走出一、两步)，大家都有可能准确猜出最终谁输谁赢(假定两位选手都会以‘完美’的方式下完整盘)。我不知道是谁提出了这项基本理论，但作为本次研究项目的前提性假设，其确实非常重要。

换句话来说，在游戏状态下，我们将可通过一条函数v*(s)来预测最终结果——例如你赢得这盘对弈的概率，区间为0到1。DeepMind的研究人员

[1] [2] [3]

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31097

浏览量
269420
人工智能

人工智能

+关注

关注
1792

文章
47409

浏览量
238919

一文看懂电感、磁珠和零欧电阻的区别

电子发烧友网站提供《一文看懂电感、磁珠和零欧电阻的区别.docx》资料免费下载

发表于 01-02 14:48 •0次下载

周亚辉的朋友圈，揭开潜藏在AI冰山下的秘密

2024年的满分AI公司，和它们潜藏在冰山下的秘密

发表于 11-29 09:22 •2155次阅读

周亚辉的朋友圈，揭开潜藏在<b class='flag-5'>AI</b>冰山下的<b class='flag-5'>秘密</b>

一文看懂为什么贴片共模电感的感量在电路中会不稳定

一文看懂为什么贴片共模电感的感量在电路中会不稳定编辑：谷景电子电感量是贴片共模电感的重要性能参数之一，也被称作自感系数，通常用字母“H”来表示。我们在选择贴片共模电感的时候，电感量

发表于 11-03 16:39 •270次阅读

一文看懂贴片电感外壳坏了会有影响吗

一文看懂贴片电感外壳坏了会有影响吗 gujing 编辑：谷景电子贴片电感是最近比较火的一种电感元件，特别是在一些精密度要求很高的电子产品中

发表于 10-28 17:24 •235次阅读

一文看懂如何快速判断电感的好坏

一文看懂如何快速判断电感的好坏编辑：谷景电子电感是电子电路中的特别重要的一种电感元件，它在电路运行中的稳定性是特别重要的。使电感在电路中发挥着重要的作用，也就是说电感

发表于 10-27 17:41 •371次阅读

平衡创新与伦理：AI时代的隐私保护和算法公平

成了一把双刃剑，其锐利的一面正逐渐指向我们的核心价值。面对这些挑战，制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。确保AI决策

发表于 07-16 15:07

AI初创公司Cerebras秘密申请IPO

近日，全球科技圈再次掀起波澜。据外媒最新报道，被誉为明星AI芯片独角兽的Cerebras Systems，已经悄然向证券监管机构递交了首次公开募股（IPO）的秘密申请。这一动作无疑为当前火爆的

发表于 06-27 17:44 •735次阅读

一文看懂如何解决工字型绕线电感不良的问题

一文看懂如何解决工字型绕线电感不良的问题gujing 编辑：谷景电子工字型绕线电感作为一种应用非常普遍的电感元件，它在电源管理、信号处理和射频应用中，有着特别重要的作用。但在工字型绕

发表于 05-21 21:29 •495次阅读

一图看懂星河AI园区网络，以体验为中心，企业数智升级首选

一图看懂星河AI园区网络，以体验为中心，企业数智升级首选

发表于 05-19 11:10 •506次阅读

主流边缘AI算法，在安防、零售、交通等领域的应用

电子发烧友网报道（文/李弯弯）边缘AI，是在边缘设备部署AI算法，其计算发生在靠近用户和数据的网络边缘，而不是集中在云计算设施或私人数据中心。边缘A

发表于 05-13 01:56 •3020次阅读

一图看懂星河AI数据中心网络，全面释放AI时代算力

华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络，以网强算，全面释放AI时代算力

发表于 03-22 10:28 •780次阅读

字节跳动被曝正秘密研发多个AI产品

据多位知情人士透露，科技巨头字节跳动正在人工智能（AI）大模型领域秘密研发多个创新产品。其中，多模态数字人产品备受瞩目，该产品将结合先进的AI技术与虚拟形象，为用户提供全新的交互体验。此外，字节跳动还在研发

发表于 03-05 11:22 •1006次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习、强化学习

发表于 02-07 00:07 •5849次阅读

一文看懂电感替换方法有哪些

一文看懂电感替换方法有哪些 gujing 编辑：谷景电子电感是各种电子产品中不可缺少的电感元件之一，大部分人对电感是存在是存在误解的。有的人觉得电感的存在感很低，有的人觉得电感的质量

发表于 01-22 19:28 •1198次阅读

一文看懂电感可以用大的替换小的吗

一文看懂电感可以用大的替换小的吗编辑：谷景电子电感是一种特别重要的电感元件，对于电路的运行稳定电感是非常重要的。只要电路中的电感出现质量的问题或者出现损坏，就会引起电路故障。在这种

发表于 01-13 21:56 •857次阅读

搜索历史

一文看懂AI算法的秘密

评论

一文看懂电感、磁珠和零欧电阻的区别

周亚辉的朋友圈，揭开潜藏在AI冰山下的秘密

一文看懂为什么贴片共模电感的感量在电路中会不稳定

一文看懂贴片电感外壳坏了会有影响吗

一文看懂如何快速判断电感的好坏

平衡创新与伦理：AI时代的隐私保护和算法公平

AI初创公司Cerebras秘密申请IPO

一文看懂如何解决工字型绕线电感不良的问题

一图看懂星河AI园区网络，以体验为中心，企业数智升级首选

主流边缘AI算法，在安防、零售、交通等领域的应用

一图看懂星河AI数据中心网络，全面释放AI时代算力

字节跳动被曝正秘密研发多个AI产品

AI算法的本质是模拟人类智能，让机器实现智能化

一文看懂电感替换方法有哪些

一文看懂电感可以用大的替换小的吗