DeepMind阿尔法被打脸，华为论文指出多项问题-电子发烧友网

DeepMind 在强化学习领域具有很高的学术声誉。从 AlphaGo 到 AlphaStar，每一项研究都取得了举世瞩目的成就，但就在最近，DeepMind 的一篇有关多智能体强化学习的论文被华为英国研究中心「打脸」。华为论文指出，DeepMind 的这项研究存在多个问题。

研究者认为，如果要复现近日 DeepMind 登上《Nature》子刊的论文，需要动用高达一万亿美元的算力，这是全球所有算力加起来都不可能实现的。

那么，DeepMind 的这份研究是什么，按照华为论文的说法，存在的问题是什么呢？

DeepMind阿尔法被打脸，华为论文指出多项问题

被怼的 DeepMind 论文

作为 DeepMind「阿尔法」家族的一名新成员，α-Rank 于今年 7 月登上了自然子刊《Nature Scientific Reports》。研究人员称，α-Rank 是一种全新的动态博弈论解决方法，这种方法已在 AlphaGo、AlphaZero、MuJoCo Soccer 和 Poker 等场景上进行了验证，并获得了很好的结果。

华为论文计算的花销成本（以美元计）如下图 2 所示，其中考虑到了英伟达 Tesla K80 GPU 能够以每秒 0.9 美元、最高 5.6 GFlop/s 的单精度下运行。

DeepMind阿尔法被打脸，华为论文指出多项问题

图 2：计算α-Rank 时构造转换矩阵 T 的花销成本。

这里请注意，当前全球计算机的总算力约为 1 万亿美元（红色平面）。投影轮廓线表明，由于α-Rank「输入」的算力需求呈指数级增长，用 10 个以上的智能体进行多智能体评估是根本不可能的。

最后，在论文中，华为研究人员提出了一个对α-Rank 的解决方法，名为：α^α-Rank。该方法使用了随机优化策略，能够大大降低计算复杂度。

α-Rank 原理

α-Rank 是 DeepMind 提出的一项强化学习研究，主要针对的是多智能体强化学习的场景。强化学习是一种利用智能体在搜索空间进行探索，并根据其选择的策略给予恰当奖励，使其逐渐收敛到最佳策略上的方法。和一般的强化学习不同，多智能体强化学习中有多个智能体，多个智能体和环境进行交互时就会带来比单个智能体复杂得多的情况。

在多智能体系统中，每个智能体都会通过与所在环境的交互来获取奖励值（reward），进而学习改善自己的策略，并获得该环境下行动的最优策略。在单智能体强化学习中，智能体所在的环境是稳定不变的。但是，在多智能体强化学习中，环境是复杂、动态的，因此不可避免地会给学习过程带来诸多困难。

MARL 最简单的形式是独立强化学习（independent RL，InRL），每个学习器不理会其他智能体，将所有互动作为自己（「局部」）环境的一部分。此外，还有许多智能体和环境以及彼此之间进行交互的研究，智能体彼此之间需要协作，形成联合策略（joint strategy）。要评估智能体选择的策略，就需要对联合策略进行评价。

因此，在可扩展的多智能体强化学习策略评估和学习中存在两个主要的困难。首先，联合策略空间（即所有智能体的策略总和）会随着智能体数量的增加而快速增长。其次，这种多智能体的游戏很可能会演变成一种「石头剪刀布」的循环行为，使得评价策略的好坏变得很困难。为了解决第二个问题，很多多智能体强化学习研究只能将智能体研究转换为博弈论的方法，按照最终博弈结果所得到的的固定分数进行评价。

最近，在解决多智能强化学习这一任务上，DeepMind 又提出了一个名为α-Rank 的方法。这是一个基于图和博弈论的多智能体协作评估解决方案。α-Rank 采用了马尔科夫-康利链（Markov Conley Chains），用于表示游戏动态过程，并尝试计算一个固定的分布。对联合策略的排名按照分布产生。

具体而言，DeepMind 的这篇论文将评估多智能体的问题转换为一个马尔科夫链的固定分布。假设有 N 个智能体，每个智能体有 k 个策略，则该马尔科夫链可被定义为一个联合策略图，有着的转移矩阵。而要被计算的固定概率分布 ν∈R^k^N，用于解 Tν=ν。v 的质量函数就是联合策略的排名分数。这一方法的亮点在于将多智能体的联合策略作为一个固定分布，以便进行排名和评估。

DeepMind阿尔法被打脸，华为论文指出多项问题

图 1：有 3 个智能体。a）每个智能体有 3 个策略（用颜色区分）和 5 个副本。每个智能体集群有一个 Pi 值，用于衡量其选择的策略；b）当一个突变策略（红色星星）发生的时候；c）每个群体选择维持原有策略，或者选择突变策略。

在 α-Rank 中，N 个智能体的策略会通过突变和选择进行评价。开始时，智能体集群会构建多个学习器的副本，并假设每个集群中的所有智能体都会执行同一个固定策略。这样一来，α-Rank 会通过随机采样每个集群中的学习器，用于模拟多智能体的博弈环境。在游戏结束时，每个参与的智能体的可以获得一个收益，这个收益可以用于策略突变和选择。在这里，智能体面临一个概率选择——换成突变策略、维持原有策略，或者随机选择一个和前两个不一样的新策略。这一过程持续，目标是决定一个主要的进化方法，并在所有集群的智能体中传播。

反驳理由

华为论文的反驳理由主要是根据α*-*Rank 的计算复杂度进行批判的。α-Rank 声称能够根据智能体的数量在多项式时间内解出问题，但华为论文认为实际的复杂度会随着智能体数量呈几何级别的增长，实际上是一个 NP 困难问题。

α-Rank 的计算复杂度太高

原始的α-Rank 研究声称其算法可解，因为随着联合策略的数量增加，其算法可在多项式时间内完成。根据这一定义，如果α-Rank 有多项式的复杂度，则计算时间应当和公式：O （N × k）^d，（d 和 N（智能体数量）、K（策略数量）独立）相称。而如果算法要求计算一个固定概率分布，有着一个 k^N 行和列的转移矩阵，则时间复杂度应该是 O（k^N）。很显然，这个结果是几何级的，因此不可解。华为论文的研究者认为，α -Rank 中计算最高的联合策略过程是一个 NP 困难问题。

从以上的计算复杂度研究可以得出一个结论，如果按照α-Rank 的方法计算一个固定概率分布，有着ε个固定策略，且精确度参数ε大于 0，可以有多种算法进行计算，计算复杂度如下表 1 所示。而任何一种现有的计算这个固定概率分布的方法都会因智能体的数量增长呈现几何级的复杂度增长。

DeepMind阿尔法被打脸，华为论文指出多项问题

表 1：以 N（智能体数量）×K（策略数量）表作为输入时的时间和空间复杂度比较。

α-Rank 的输入定义不清

除了计算复杂度问题，华为论文对α-Rank 的输入进行了讨论。DeepMind 的论文给出了这些智能体的复杂度计算结果，并声明了它们的可解性。但是，华为论文想要阐明的一点是，在没有正式定义输入的情况下，此类定义并不能反映真正的底层时间复杂度，因此很难声称这些智能体的可解性。

为此，华为论文举了解决旅行推销员问题的例子，这位旅行推销员需要造访一系列城市，同时又要按照最短的路线返回最初的城市。尽管大家都知道旅行推销员问题属于一种 NP 困难问题，但按照α-Rank 的思路，这一问题可以简化为「元城市」规模的多项式时间（线性，如可解决）问题，这并不是一种有效的声明。

华为论文指出，即使可以说排列数量确定的情况下可以在多项式复杂度中解决旅行推销员问题，这并不能说明任何类似的算法都是可解的。即使算法可以在多项式时间内解决问题，但其空间是几何级规模的，这并不能说明它是可解决的。因此，要说解决了复杂度的问题，就需要对输入进行调整。

一万亿算力都打不住

在以上问题都没有清楚解决的情况下，华为论文只能按照推测，将α-Rank 的输入考虑作为指数级的收益矩阵。接着，他们进行了一项实验，对仅执行算法 1 中第 3 行的扩展性评估花销进行了计算，同时也考虑到了 DeepMind 另一篇论文《α-Rank： Multi-Agent Evaluation by Evolution》中的任务。

DeepMind阿尔法被打脸，华为论文指出多项问题

华为论文计算了α-Rank 算法 1 中第 3 行的扩展性评估的花销成本。

此外，构建公式 2 中 T 所需的浮点运算总量为

DeepMind阿尔法被打脸，华为论文指出多项问题

。

DeepMind阿尔法被打脸，华为论文指出多项问题

公式 2

而就构建上述公式 2 中的 T 而言，华为论文计算的花销成本（以美元计）如下图 2 所示，其中考虑到了英伟达 Tesla K80 GPU 能够以每秒 0.9 美元、最高 5.6 GFlop/s 的单精度下运行。

DeepMind阿尔法被打脸，华为论文指出多项问题

图 2：计算α-Rank 时构造转换矩阵 T 的花销成本。

这里请注意，当前全球计算机的总算力约为 1 万亿美元（红色平面）。投影轮廓线表明，由于α-Rank「输入」的算力需求呈指数级增长，用十个以上的智能体进行多智能体评估是根本不可能的。

同样值得注意的是，华为论文的分析没有考虑存储 T 或计算平稳分布的花销，因而他们的分析是乐观的。

此外，如果将α-Rank 的输入加入收益矩阵并按照 DeepMind 论文的实验跑 AlphaZero，即使用上全球所有算力，也得花上超过 5200 年。

DeepMind阿尔法被打脸，华为论文指出多项问题

其他的算法也都不可行——在华为研究人员估算下，即使将收益矩阵加入α-Rank 跑 DeepMind 几个著名算法需要用到的资金花费和时间都是天文数字。注意：在这里预设使用全球所有的算力。

华为提出改进方法α^α-Rank

华为在其论文中采用了一种随机优化方法，该方法通过对收益矩阵的随机采样而获得解决方案，同时无需存储指数大小的输入。与上表 1 中的内存需求相反，这一方法的复杂度为 O（Nk），每次迭代的复杂度为线性。值得注意的是，在启动任何数字指令之前，大多数其他方法需要存储指数大小的矩阵。尽管在理论上没有导致时间复杂度的减弱，但华为论文利用 double-or acle 启发式来扩展其算法，进而实现了联合策略下的空间减小。事实上，华为论文中的实验表明，α^α-Rank 可以在大型策略空间的数百次迭代下收敛至正确的顶级策略。

DeepMind阿尔法被打脸，华为论文指出多项问题

华为提出的改进方法。

华为论文表明其α^α-Rank 具有可扩展性，能够成功地在无人驾驶汽车模拟和伊辛模型（Ising model，一种具有数千万可能策略的设置）获得最优策略。他们注意到，当前 SOTA 方法的性能远远无法满足此等规模的需求。α-Rank 认为 4 个智能体最多可以采用 4 种策略。华为论文中的所有实验仅仅是在 64GB 内存和 10 核心英特尔 i9 CPU 的单机上运行的。

DeepMind阿尔法被打脸，华为论文指出多项问题

图 5：大规模多智能体评估。（a）无人驾驶模拟中最优联合策略组合的收敛性；（b）伊辛模型的平衡状态。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

华为

华为

+关注

关注
216

文章
34530

浏览量
252729
AlphaGo

AlphaGo

+关注

关注
3

文章
79

浏览量
27823

未来的AI 深挖谷歌 DeepMind 和它背后的技术

学习从非结构化数据中学习来编写分析报告或执行无人监督的任务。所有这些发展都为不同的公司发挥作用并证明他们的价值奠定了基础。因此，很多像DeepMind这样的公司成立了，来继续发展这一领域。你对其有

发表于 08-26 12:04

华为将推出子品牌汽车

车型极狐阿尔法 S 将于本周发布，并在今年四季度开始推出一系列深度合作的车型。同时，华为设计了专门的 HUAWEI INSIDE（HI）的子品牌，该 LOGO 未来将出现在运用了包含华为自动驾驶

发表于 04-13 17:11

看准时机“参战”，华为能走通高端路线吗？精选资料分享

“一石激起千层浪”，自从华为宣布正式加入“造车局”后，围绕华为汽车业务的新闻不断涌现。4月15日，华为发布了搭载华为自动驾驶技术的北汽新能源极狐阿尔

发表于 07-27 06:47

对极狐阿尔法S华为HI版的几点看法精选资料分享

2021上海车展进行中。本届车展，新能源，智能驾驶堪称最热话题，从特斯拉“刹车失灵”到华为首款inside智能汽车——ARCFOX极狐阿尔法S，智能驾驶热度持续攀升。玺哥今天不聊特斯拉，我们来聊聊

发表于 07-27 07:10

华为inside第一辆车来了！总裁说：若计算上干不过特斯拉，可关门不干了精选资料分享

4月17日晚，北汽新能源汽车高端品牌极狐宣布，旗下第二款量产车型阿尔法S正式上市，新车定位中大型车。首款Huaweiinside智能豪华纯电轿车北汽阿尔法S（华为HI版）采用华为快充技

发表于 07-27 08:13

阿尔法线圈是什么

在无线充电领域，我们平常可以看到各种不同尺寸、不同材质、不同形状的线圈被广泛应用于发射端与接收端产品上，alpha线圈，俗称阿尔法线圈，因为它的两个引出线均在线圈外侧，形似α而得名。阿尔法线圈是单线

发表于 09-15 06:43

华为iLab研究“VR黑科技” 传统社交应用或被打破

华为iLab研究VR黑科技传统社交应用或被打破华为iLab对社交VR开展了深入的研究，对当前和未来的社交VR应用形态的核心元素、关键技术、应用体验、网络要求、网络流量和影响等进行了系统性的分析，并表示社交VR将改变未来通信

发表于 11-28 11:40 •769次阅读

阿尔法狗的工作原理及核心技术

阿尔法围棋（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序，由谷歌（Google）旗下DeepMind公司戴密斯哈萨比斯领衔的团队开发。那么阿尔法狗的工作原理

发表于 11-28 11:10 •13.2w次阅读

DeepMind要在医疗领域放大招，开发眼底AI，用AI预测急性肾损伤

Deepmind旗下的“阿尔法狗”大胜人类围棋选手，名声大噪，由此，也让Deepmind逐渐为人所熟知，最近其在医疗领域的一连串大动作，不得不让我们遐想纷纷，难不成这是要出医疗版“阿法狗”的节奏？

发表于 04-08 11:27 •5922次阅读

子弹短信罗永浩“被打脸”

而罗永浩本人回应打脸：【腾讯投资部如果是想打麻将，我道歉】在遭遇腾讯投资部否认投资子弹短信后，罗永浩表示，“如果这是一场误会，如果腾讯投资部通过各种渠道找我们的子弹团队不是想谈投资合作，而是想一起打打麻将，吃个鸡，学个猫叫，看个电影什么的，那我向腾讯投资部道歉。”

发表于 09-13 15:38 •4739次阅读

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

发表于 02-17 09:30 •3369次阅读

华为被打压，谁最有机会替代

并不认为华为在被打压的情况下会失去所有这些合同。华为有三种途径可以继续向海外发货电信网络设备，包括美国对于华为非5G网络设备的例外许可（解除对华为

发表于 10-21 14:31 •1556次阅读

极狐阿尔法S华为HI版车型搭载了华为激光雷达方案

音圈模组激光雷达在极狐阿尔法S华为HI版的应用。近日，极狐阿尔法S华为HI版正式起售，作为搭载华为HI解决方案的车型，极狐

发表于 05-28 14:12 •1642次阅读

谷歌DeepMind宣布即将推出ChatGPT的强力竞争对手

这个名为 Sparrow 的新聊天机器人是去年在一篇研究论文中作为概念验证引入的。DeepMind 首席执行官 Demis Hassabis 表示，Sparrow 可能会在 2023 年发布 “私人测试版”。

发表于 01-30 11:25 •796次阅读

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议

谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了，瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

发表于 07-16 18:29 •630次阅读

搜索历史

DeepMind阿尔法被打脸，华为论文指出多项问题

评论

未来的AI 深挖谷歌 DeepMind 和它背后的技术

华为将推出子品牌汽车

看准时机“参战”，华为能走通高端路线吗？精选资料分享

对极狐阿尔法S华为HI版的几点看法精选资料分享

华为inside第一辆车来了！总裁说：若计算上干不过特斯拉，可关门不干了精选资料分享

阿尔法线圈是什么

华为iLab研究“VR黑科技” 传统社交应用或被打破

阿尔法狗的工作原理及核心技术

DeepMind要在医疗领域放大招，开发眼底AI，用AI预测急性肾损伤

子弹短信罗永浩“被打脸”

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

华为被打压，谁最有机会替代

极狐阿尔法S华为HI版车型搭载了华为激光雷达方案

谷歌DeepMind宣布即将推出ChatGPT的强力竞争对手

谷歌DeepMind被曝抄袭开源成果，论文还中了顶流会议