强化学习之父Richard Sutton总结AI研究“苦涩教训”-电子发烧友网

强化学习之父Richard Sutton总结AI研究“苦涩教训”，认为利用算力才是王道，不应依靠人类知识。对此，著名机器人专家Rodney Brooks 撰文反驳，阐述了Sutton观点错误的六大原因。

The Bitter Lesson还是A Better Lesson？

近日，强化学习之父、加拿大计算机科学家 Richard S. Sutton 在其个人网站上发文The Bitter Lesson，指出了过去 70 年来 AI 研究方面的苦涩教训：我们过于依靠人类知识了。

参考阅读：

强化学习之父：AI研究70年教训深刻，未来探索要靠智能体自己

他认为，过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识，研究人员在训练 AI 模型时，往往想将人类知识灌输给智能体，而不是让智能体自己去探索。这实际上只是个记录的过程，并未实现真正的学习。

Sutton说，事实证明，这种基于人类知识的所谓 “以人为本” 的方法，并未收到很好的效果，尤其是在可用计算力迅猛增长的大背景下，在国际象棋、围棋、计算机视觉等热门领域，智能体本身已经可以自己完成 “规模化搜索和学习”，取得的效果要远好于传统方法。

由此，Sutton认为利用算力才是王道，过去的教训必须总结，未来的研究中，应该让 AI 智能体自己去发现，而不是将我们发现的东西记下来。

这番言论引来许多反对的声音，比如，牛津大学计算机科学教授 Shimon Whiteson 写道：“Sutton 说 AI 的发展历程告诉我们，利用计算力要胜过利用人类知识。我认为这是对历史的一种很奇怪的解释。AI 的成功不仅取决于丰富的计算资源，还取决于没有被抛弃的人类知识。”

近日，著名 AI 专家 Rodney Brooks 也加入反对Sutton的队伍，他撰文 “A Better Lesson”，阐述Rich Sutton的观点错误的六大原因。

Rodney Brooks 被誉为机器人教父，机器人领域祖师爷级别的学者，他还是澳洲科学院院士，美国国家工程院院士，前 MIT 计算机科学和人工智能实验室主任。

Rodney Brooks

新智元对 Rodney Brooks 的评论文章翻译如下：

Sutton观点错误的六大原因

就在上周，Rich Sutton 发表了一篇题为《苦涩的教训》(The Bitter Lesson) 的短文。我打算尽量把这篇评论写得比他的帖子更短。Sutton 在强化学习领域有着长期而持续的贡献。

在他的文章中，Sutton 用了很多很好的例子来论证，在人工智能 70 年的历史中，更多的计算和更少的内置知识总是构建 AI 系统的最佳方式。这与许多新进入 AI 领域的人们目前的思维模式产生了共鸣，他们认为，设计学习网络并投入大量计算能力，要比为某个任务专门设计一个计算架构更好。然而，我必须要说的是，上周在美国国家科学院 (National Ac ademy of Science) 举办的为期两天的深度学习研讨会上，后一种观点更为流行，某种程度上这与 Sutton 的观点正好相反。

我认为 Sutton 错了，原因有很多。

1.深度学习最著名的成功之一就是图像标注 (image labeling)，使用 CNN，即卷积神经网络，但 CNN 的本质是网络的前端由人类设计来处理平移不变性，即对象可以出现在框架的任何地方。使用深度学习网络也必须学习那些看起来学究气十足的东西，并且会使学习的计算成本提高许多个数量级。

2.在图像标记方面，还有其他一些东西受到了极大的影响，因为目前的 CNN 中缺乏某些众所周知对人类表现很重要的内置功能。例如，颜色恒常性 (color constancy)。

有这么一个著名的例子：一个停车标志上被贴了一些胶带，就被一个为自动驾驶训练的 CNN 误认为是一个 “限速 45 英里” 的限速标志了。

人类不会犯这样的错误，因为他们知道停车标志是红色的，限速标志是白色的。CNN 并不知道这一点，因为相机中的像素颜色和物体的实际颜色之间的关系是一种非常复杂的关系，而这种关系并没有被训练算法使用的区区数千万张训练图像所阐明。

未来可行的训练集可以是将人类的工作负载转移为创建大量的训练集，并编码我们希望系统学习的标签。这就像直接构建一个颜色恒常性阶段一样需要内置知识。这是把人类的智力工作转移到其他地方的花招。

3.事实上，对于今天的大多数机器学习问题，都需要人来设计一个特定的网络架构才能使学习顺利进行。所以，我们现在期望的不是由人类构建特定的知识，而是由人类构建特定的、适当的网络，以及构建需要使用的特定训练机制。再说一次，说 AI 在没有人类参与的情况下取得成功，这是一种花招。相反，我们要求人类将他们的智慧以一种不同的形式注入算法中。

4. 大量的数据集根本不是人类学习东西所需要的，所以这里缺失了某些东西。今天的数据集可以有数十亿个样本，但一个人可能只需要少数几个样本就能学会同样的东西。但更糟糕的是，训练我们今天所看到的大多数网络所需的计算量只能由预算非常庞大的大公司提供，AI 的成本过高使得个人甚至大学院系难以推动。对于智能系统，这不是一个可持续发展的模式。对于一些机器学习问题，由于在训练过程中需要消耗大量能耗，我们已经开始看到一些明显节约的方法。

5. 摩尔定律 (Moore’s Law) 正在放缓，因此，一些计算机架构师报告称，单个芯片上计算量倍增的时间正在从一年延长到 20 年。此外，登纳德缩放定律 (Dennard scaling) 在 2006 年的崩溃意味着机器的功耗随着性能提升而提高，因此我们甚至可能无法承受在小型机器上提高机器学习的结果 (更不用说实际的学习)，例如，自动驾驶汽车可能需要 2500 瓦的电力来进行计算 —— 而人脑只需要 20 瓦。因此，Sutton 的观点只会让情况变得更糟，让 AI 和 ML 的使用变得不切实际。

6.计算机架构师现在正试图通过为训练好的网络构建专用芯片来解决这些问题。但他们需要将硬件锁定到特定的网络结构，并利用人工分析，在不改变计算结果的情况下大幅降低电力预算。这有两个缺点。首先，它锁定了特定于特定解决方案的硬件，因此每当我们遇到新的 ML 问题，我们都需要设计新的硬件。其次，它只是简单地转移了应用人类智能的地方，而不是完全消除人类参与设计的需要。

因此，我对 Rich Sutton 这篇文章的看法是，我们应该从过去 70 年的 AI 研究中吸取的教训，根本不是只要使用更多的计算力就总能成功。相反，我认为应该吸取的更好的教训是，我们必须考虑任何解决方案的总成本，而且到目前为止，这些都需要大量的人类智慧。

这篇评论，包括这句话，比 Sutton 的帖子短了 78 个词。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28318

浏览量
206820
智能体

智能体

+关注

关注
1

文章
141

浏览量
10574
强化学习

强化学习

+关注

关注
4

文章
266

浏览量
11234

原文标题：算力不是王道，强化学习之父Rich Sutton的六点错误

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

领域的研究与发展。令人瞩目的是，边塞科技的创始人吴翼已正式加入该实验室，并担任首席科学家一职。吴翼在其个人社交平台上对这一变动进行了回应。他表示，自己最近接受了蚂蚁集团的邀请，负责大模型强化学习领域的研究工

发表于 11-22 11:14 •535次阅读

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

复杂环境互动的能力及确保行为的伦理和安全性。未来的研究需要将视觉、语音和其他传感技术与机器人技术结合，探索更加先进的知识表示和记忆模块，利用强化学习进一步优化决策过程。具身智能的发展需要更多跨学科

发表于 11-11 10:20

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •258次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度学习

发表于 10-23 15:25 •522次阅读

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

人们对AI for Science的关注推向了高潮。 2. 跨学科融合与科学研究新范式 AI与生命科学的结合，不仅推动了生命科学本身的进步，还促进了多个学科之间的交叉融合。这种跨学科的合作模式，打破

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

for Science的技术支撑”的学习心得，可以从以下几个方面进行归纳和总结： 1. 技术基础的深入理解在阅读第二章的过程中，我对于AI for Science所需的技术基础有了更加深入的理解。这一章详细阐述了

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术，AI能够处理和分析海量

发表于 10-14 09:12

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •404次阅读

人工智能ai4s试读申请

目前人工智能在绘画对话等大模型领域应用广阔，ai4s也是方兴未艾。但是如何有效利用ai4s工具助力科研是个需要研究的课题，本书对ai4s基本原理和原则，方法进行描诉，有利于

发表于 09-09 15:36

Python在AI中的应用实例

Python在人工智能（AI）领域的应用极为广泛且深入，从基础的数据处理、模型训练到高级的应用部署，Python都扮演着至关重要的角色。以下将详细探讨Python在AI中的几个关键应用实例，包括机器学习、深度

发表于 07-19 17:16 •1000次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •337次阅读

名单公布！【书籍评测活动NO.33】做了50年软件开发，总结出60条经验教训，每一条都太扎心！

柯达公司工作了 18 年，曾担任过摄影研究科学家、软件开发人员、软件经理及软件过程和质量改进领导。Karl 拥有伊利诺伊大学的有机化学博士学位。 Karl 共著有

发表于 05-17 14:36

浅谈AI技术在SSD控制器中的应用

当前AI技术蓬勃发展，深度学习、强化学习等技术不断突破，使得AI在图像识别、语音识别、自然语言处理等领域取得了显著成果。

发表于 04-20 10:02 •840次阅读

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的行为策略。

发表于 02-20 09:55 •1.3w次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习、强化学习等技术实现，并被广泛应用于语音识别、自然语言

发表于 02-07 00:07 •5710次阅读

搜索历史

强化学习之父Richard Sutton总结AI研究“苦涩教训”

评论

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮！

如何使用 PyTorch 进行强化学习

AI大模型与深度学习的关系

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

人工智能ai4s试读申请

Python在AI中的应用实例

通过强化学习策略进行特征选择

名单公布！【书籍评测活动NO.33】做了50年软件开发，总结出60条经验教训，每一条都太扎心！

浅谈AI技术在SSD控制器中的应用

一文详解Transformer神经网络模型

AI算法的本质是模拟人类智能，让机器实现智能化