只有提高算力才能发展AI? 强化学习之父萨顿与牛津教授掀起隔空论战-电子发烧友网

70年来，人们在AI领域“一直连续犯着同样的错误”。这是“强化学习之父”理查德·萨顿（Richard S. Sutton）为同行后辈们敲响的警钟。

他在博客上发表最新文章《苦涩的教训》(The Bitter Lesson)，总结了AI发展史上的怪圈：

人类不断试图把自己的知识和思维方式植入到AI之中，比如用人类的思路教AI下棋、将让AI按照人类总结的思路来识别图像等等。这些做法能带来暂时的性能提升，长期来看却会阻碍研究的持续进步。真正的突破，总是来自完全相反的方向。摒弃人类在特定领域的知识、利用大规模算力的方法，总会获得最终胜利。靠自我对弈磨炼围棋技艺的AlphaGo，基于统计方法、深度学习来识别语音、图像的算法，一次次击败先前那些浓缩了人类知识的AI，甚至人类自己。搜索、学习，充分利用大规模算力才是王道。用人类在特定领域的知识来提升AI智能体的能力，都是在走弯路。

萨顿说：“将AI建立在我们对自身思维方式的认知上，是行不通的。”OpenAI首席科学家Ilya Sutskever精辟地总结了萨顿的核心观点：算力常胜。

文章一发出，就引发了热烈的讨论，OpenAI CTO Greg Brockman、特斯拉AI总监Andrej Karpathy等人都在转发附议。

DeepMind机器学习团队主管&牛津大学教授Nando de Freitas甚至称之为“周末必读”。

然而，也有反对的声音。牛津大学计算机系教授希蒙·怀特森（Shimon Whiteson）连发13条Twitter反驳萨顿的观点，表示“坚决不同意”，同样获得了大量支持。

怀特森认为，构建AI当然需要融入人类知识，问题只在于该何时、如何、融入哪些知识。AI的历史进程是一场融入人类知识的胜利。科学家们广泛尝试，抛弃失败的99%，留下有用的1%。而这1%，对现代人工智能算法成功的重要性不亚于萨顿推崇的大量计算资源。一场隔空论战，就这样展开了。

我们先读完“本周末必读”的萨顿博文，看看正方的观点。

苦涩的教训

回溯70年的AI研究，从中得出的最大经验是，利用计算力的通用方法最终总是最有效的，而且遥遥领先。出现这种情况的终极原因是摩尔定律，或者宽泛一点来说，是单位算力成本的持续指数级下降。大多数AI研究都以智能体可用算力恒定为前提进行，在这种情况下，利用人类知识可能是提升性能的唯一方法。但是，将目光投向比一个典型研究项目更长远的时间段，就会发现必然有更多可用的算力出现。为了寻求短期可见的提升，研究人员会利用该领域的人类知识，但从长远来看，利用算力才是唯一重要的事。

虽然但这两者看似没有必要相互对立，但实际上它们往往是对立的。

在一个方向上花费的时间，就必然不能花在另一个方向。对于某一种方法的投入也会带来心理上的承诺。同时，用人类知识来提升AI会倾向于使方法复杂化，让运用算力的通用计算方法变得不太适用。很多AI研究人员后知后觉地领悟了这种“苦涩的教训”。回顾其中最重要的一些颇有启发。

在国际象棋领域，1997年击败国际象棋冠军卡斯帕罗夫的深蓝，就是基于大规模深度搜索。当时，大多数计算机国际象棋研究者都以沮丧的眼光看待它，他们追求用人类对国际象棋特殊结构的理解制胜。当一种更简单的、有特殊硬件和软件加持的基于搜索的方法被证明更有效，这些基于人类知识下国际象棋的研究者输得一点都“不体面”。他们说，这种“用蛮力”的搜索可能这次能赢，但这终究不是通用策略，无论如何这也不是人类下棋的方式。

他们希望基于人类输入的方法获胜，却事与愿违，只剩失望。计算机围棋领域，研究进展也遵循着同样的模式，只是比国际象棋迟了20年。这一领域最初的众多努力，都是利用人类知识或游戏的特殊特性避免搜索，然而，搜索一被大规模高效应用，这些努力都变得无关紧要，甚至更糟。利用自我对弈来学习一种价值函数同样重要（在许多其他游戏、甚至在国际象棋中也一样，虽然在1997年的深蓝项目中没有发挥很大作用）。通过自我对弈来学习，以及学习本身，其实都和搜索一样，让大规模计算有了用武之地。

搜索和学习是AI研究中应用大规模计算力的两类最重要技术。

在计算机围棋和国际象棋项目中，研究人员最初努力的方向是如何去利用人类的理解（这样就不需要太多的搜索），很久以后，才通过拥抱搜索和学习取得了更大的成功。

在语音识别领域，很早之前曾有一场竞赛，1970年由DARPA主办。在这场比赛中，一部分参赛者运用那些需要人类知识（单词知识、音素知识、人类声道知识等等）的特殊方法。也有一部分人基于隐马尔可夫模型(HMMs)完成比赛。这种新方法本质上更具统计性质，也需要更大的计算量。

不出所料，最终统计方法战胜了基于人类知识的方法。这场比赛为所有自然语言处理任务都带来了巨大的改变，在过去的几十年里，统计和算力逐渐占据主导地位。语音识别中兴起没多久的深度学习，也是朝着这一方向迈出的最新一步。深度学习方法对人类知识的依赖甚至更少，用到了更多的算力。通过在大型训练集上的学习，能得到更好的语音识别系统。

就像在棋类游戏中一样，研究人员总是试图让系统按照他们心目中的人类的思维方式工作，试图把这些知识放进计算机的系统里。但最终，当摩尔定律带来大规模算力，其他人也找到了一种充分利用它的方法时，会发现原来的做法适得其反，是对研究人员时间的巨大浪费。

在计算机视觉领域，也有类似的模式。早期的方法，将视觉设想为搜索边缘、广义圆柱体，或者SIFT算法捕捉的特征。但现在，所有这些方法都被抛弃了。现代的深度学习神经网络，只使用卷积和某些不变性的概念，而效果要好得多。

这些教训告诉我们，（AI）这个领域，我们仍然没有完全了解，我们连续犯着同样的错误。为了认清状况，有效防止犯错，我们必须理解这些错误有什么吸引力。我们必须从这”苦涩的教训”中学习：长远来看，将AI建立在我们对自身思维方式的认知上是行不通的。而突破性进展最终会来自完全相反的方法：基于搜索和学习进行规模计算。最终的成功总是带来些许怨恨，通常也不被完全理解，因为它超越了当前受欢迎的、以人为中心的方法。

从历史的教训中，我们能学到两点。

第一，通用型方法有强大的力量。即使可用的算力变得非常大，这些方法仍然可以继续扩展，运用增加的算力。似乎可以按照这种方式任意扩展的方法有两种：搜索和学习。

第二，思维的实际内容复杂到非常可怕无可救药。我们不该再试图寻找简单的方法来思考其内容，比如，用简单的方式去思考空间、物体、多智能体或者对称性。

所有这些，都是随意、本质上非常复杂的外部世界的一部分。它们不应该内置在任何一个AI智能体中，因为它们复杂得没有尽头。相反，我们应该只构建能发现和捕获这种任意复杂性的元方法，这种方法的本质是能够很好地找到近似值。不过，寻找的工作应该交给我们的方法，而不是我们自己。我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。

在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。

原文链接：

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

“甜蜜的一课”

坚决不同意萨顿观点的怀特森老师认为，构建AI当然需要融入人类知识，问题只在于该何时、如何、融入哪些知识。AI历史上有“甜蜜的一课”（The Sweet Lesson），我们在尝试寻找正确先验知识的过程中，推动了AI的进步。他将萨顿的观点总结为：“AI的历史告诉我们，利用算力最终总是战胜利用人类知识。”

以下是怀特森Twitter内容的翻译整理：

我认为这是对历史的一种特殊解释。的确，很多把人类知识融入AI的努力都已经被抛弃，随着其他资源（不仅仅是计算力，还包括存储、能源、数据）的丰富，还会抛弃更多。但是，由此产生的方法的成功，不能仅仅归功于这些丰富的资源，其中那些没有被抛弃的人类知识也功不可没。

要是想脱离卷积、LSTM、ReLU、批归一化（batchnorm）等等做深度学习，祝你好运。要是抛开“围棋是静态、零和、完全可观察的”这一先验知识，就像搞定这个游戏，也祝你好运。所以，AI的历史故事并非融入人类知识一直失败。恰恰相反，这是融入人类知识的胜利，实现的路径也正是一种完全符合惯例的研究策略：尝试很多方法，抛弃失败的99%。剩下的1%对现代人工智能的成功至关重要，就和AI所以来的大量计算资源一样关键。

萨顿说，世界固有的复杂性表明，我们不该把先验知识融入到系统中。但是我的观点恰恰相反：正是这种复杂性，导致他推崇的搜索和学习方法极度复杂难解。只有借助正确的先验知识，正确的归纳偏见（inductive biases），我们才能掌握这种复杂性。他说，“现代的深度学习神经网络，只使用卷积和某些不变性的概念，而效果要好得多。”一个“只”字就凸显了这种断言的武断性。如果没有这些卷积和不变性，深度学习就不会成功，但它们却被视作微小、通用到可以接受。

就是这样，“苦涩的教训”避开了主要问题，这根本不是要不要引入人类知识的问题（因为答案显然是肯定的），而是该问这些知识是什么，该在何时、如何使用它。

萨顿说，“我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。”当然。但是我们善于发现正是因为我们天生带有正确的归纳偏见。

AI历史上的“甜蜜一课”是这样的：虽然找到正确的归纳偏见很难，但寻找的过程为原本难解的问题带来了巨大的进展。

原文链接：

https://twitter.com/shimon8282/status/1106534185693532160

论战双方

这场隔空论战的双方，分别是“强化学习之父”萨顿，和牛津大学计算机系教授希蒙·怀特森。都是强化学习领域的科学家，观点却截然相反。

强化学习之父：萨顿

萨顿，被认为是现代计算强化学习的创始人之一，为强化学习做出了许多贡献，比如“时序差分学习”（temporal difference learning）和“策略梯度方法”（policy gradient methods）等等。

1978年，萨顿在斯坦福大学获得了心理学学士学位，之后才转向计算机科学，在马萨诸塞大学安姆斯特分校获得博士学位。他与导师Andrew Barto合著的《强化学习导论》一书，已经成为强化学习研究领域的基础读物。目前，萨顿任教于阿尔伯塔大学，是计算机科学系的教授和 iCORE Chair，领导强化学习和人工智能实验室。2017年6月，萨顿加入Deepmind，共同领导其位于加拿大埃德蒙顿的办公室，同时保持他在阿尔伯塔大学的教授职位。2001年以来，萨顿一直都是AAAI Fellow，在2003年获得国际神经网络学会颁发的President’s Award，并于2013年获得了马萨诸塞大学阿默斯特分校颁发的杰出成就奖。

来自牛津大学的反对者：怀特森

希蒙·怀特森，是牛津大学计算机系的教授，专注于人工智能和机器学习领域。强化学习、让智能体跟着演示学习都是他所研究的课题。他2007年获得美国德克萨斯大学奥斯汀分校的计算机博士学位，随后留校做了一段时间的博士后，然后任教于丹麦阿姆斯特丹大学。2015年，怀特森成为牛津大学副教授，2018年成为教授。

隔空论战，你支持谁？

除了怀特森之外，也有不少人对萨顿的观点表示不能完全同意。比如Nando de Freitas认为萨顿博文的最后一段非常正确、发人深省：

我们需要的是能像我们一样进行发现的AI智能体，而不是包含我们已经发现的东西在内的AI。在我们发现的基础上建立AI，只会让它更难看到发现的过程是如何进行的。

但他也就着怀特森的观点，谈了一些自己的想法：帝国理工学院教授、DeepMind高级研究员Murray Shanahan虽然支持不能人工手写特定领域的先验知识，但还是认为“应该寻找有利于让AI学习这些常识类别的架构上的先验”。

德克萨斯大学奥斯汀分校的助理教授Scott Niekum说，他大致同意萨顿的观点，但也有值得商榷的地方，比如科学从来都不是一条直线，很多最重要的发现，可能就来自借助内建特定领域知识来研究那些不够通用的模型的过程。

这个问题，你怎么看？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31097

浏览量
269420
强化学习

强化学习

+关注

关注
4

文章
268

浏览量
11267

原文标题：只有大规模算力才能救AI？强化学习之父 vs 牛津教授掀起隔空论战

文章出处：【微信号：mcuworld，微信公众号：嵌入式资讯精选】欢迎添加关注！文章转载请注明出处。

企业AI算力租赁模式的好处

构建和维护一个高效、可扩展的AI算力基础设施，不仅需要巨额的初期投资，还涉及复杂的运维管理和持续的技术升级。而AI算

发表于 12-24 10:49 •141次阅读

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

领域的研究与发展。令人瞩目的是，边塞科技的创始人吴翼已正式加入该实验室，并担任首席科学家一职。吴翼在其个人社交平台上对这一变动进行了回应。他表示，自己最近接受了蚂蚁集团的邀请，负责大模型强化学习领域的研究工

发表于 11-22 11:14 •623次阅读

企业AI算力租赁是什么

企业AI算力租赁是指企业通过互联网向专业的算力提供商租用所需的计算资源，以满足其AI应用的需求。

发表于 11-14 09:30 •757次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •325次阅读

AI时代算力的重要性及现状:平衡发展与优化配置的挑战

在AI时代，算力扮演着至关重要的角色。如果说数据是AI大模型的“燃料”，那么算力则是其强大的“动

发表于 11-04 11:45 •457次阅读

GPU算力开发平台是什么

随着AI技术的广泛应用，算力需求呈现出爆发式增长。AI算力租赁作为一种新兴的服务模式，正逐渐成为

发表于 10-31 10:31 •200次阅读

《算力芯片高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——算力之巅：从基准测试到CPU微架构的深度探索

，还优化了能效比，使天河二号在Green500榜单上也表现出色。另一方面，MLPerf的出现标志着AI时代对算力需求的变化。它涵盖了图像分类、目标检测、自然语言理解、智能推荐算法、强化学习

发表于 10-19 01:21

青云科技强化AI算力架构,升级产品与服务体系

10月9日，青云科技正式揭晓了其升级版的产品与服务阵容、行业及场景定制化解决方案，以及全新的生态战略。该公司旨在通过AI智算平台、AI算力云

发表于 10-10 16:42 •504次阅读

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

力，在全球范围内，对于推动科技进步、经济发展及社会整体的运作具有至关重要的作用。随着信息技术的高速发展，高性能计算（HPC）和人工智能（AI）等技术在多个领域的应用变得日益广泛，芯片

发表于 09-02 10:09

算力：人工智能发展的新引擎

的算力支持。但，算力的提升往往伴随着高昂的成本，维护以及电力消耗都是不小的开支、高性能计算硬件的购置。此外，AI模型的规模和复杂性不断增加

发表于 08-20 09:48 •366次阅读

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能，是一个极为重要的问题，带着这个极为重要的问题，我需要在此书中找到答案。

发表于 08-20 09:04

算力系列基础篇——算力与计算机性能：解锁超能力的神秘力量！

在《算力系列基础篇——算力101：从零开始了解算力》中，相信各位粉丝初步了解到人工智能的“发动机”和核心驱动力：

发表于 07-11 08:04 •104次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •375次阅读

大茉莉X16-P，5800M大算力称王称霸

算力

Rykj365
发布于 :2024年01月25日 14:54:52

立足算力，聚焦AI！顺网科技全面走进AI智算时代

“立足算力，聚焦AI”，顺网科技进军AI智算时代的号角已被吹响。 1月18日，顺网科技（300113.SZ）以“跃迁·向未来”为主题的战略升

发表于 01-19 10:57 •480次阅读

搜索历史

只有提高算力才能发展AI? 强化学习之父萨顿与牛津教授掀起隔空论战

评论

企业AI算力租赁模式的好处

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

企业AI算力租赁是什么

如何使用 PyTorch 进行强化学习

AI时代算力的重要性及现状:平衡发展与优化配置的挑战

GPU算力开发平台是什么

《算力芯片高性能 CPU/GPU/NPU 微架构分析》第1-4章阅读心得——算力之巅：从基准测试到CPU微架构的深度探索

青云科技强化AI算力架构,升级产品与服务体系

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

算力：人工智能发展的新引擎

大模型时代的算力需求

算力系列基础篇——算力与计算机性能：解锁超能力的神秘力量！

通过强化学习策略进行特征选择

大茉莉X16-P，5800M大算力称王称霸

立足算力，聚焦AI！顺网科技全面走进AI智算时代