简单随机搜索：无模型强化学习的高效途径-电子发烧友网

现在人们对无模型强化学习的一个普遍看法是，这种基于随机搜索策略的方法在参数空间中比那些探索行为空间的方法表现出更差的样本复杂性。UC Berkeley的研究人员通过引入随机搜索方法，推翻了这种说法。以下是论智对作者Benjamin Recht博文的编译。

我们已经看到，随机搜索在简单的线性问题上表现得很好，而且似乎比一些强化学习方法（例如策略梯度）更好。然而随着问题难度增加，随机搜索是否会崩溃？答案是否定的。但是，请继续读下去！

让我们在强化学习社区感兴趣的问题上应用随机搜索。深度强化学习领域一直把大量时间和精力用于由OpenAI维护的、基于MuJoCo模拟器的一套基准测试中。这里，最优控制问题指的是让一个有腿机器人在一个方向上尽可能快地行走，越远越好。其中一些任务非常简单，但是有些任务很难，比如这种有22个自由度的复杂人形模型。有腿机器人的运动由Hamilton方程控制，但是从这些模型中计划动作是非常具有挑战性的，因为没有设计目标函数的最佳方法，并且模型是分段线性的。只要机器人的任何部位碰到坚硬物体，模型就会变化，因此会出现此前没有的作用于机器人的法向力。于是，让机器人无需处理复杂的非凸非线性模型而正常工作，对强化学习来说是个有趣的挑战。

最近，Salimans及其在OpenAI的合作者表示，随机搜索在这些标准测试中表现的很好，尤其是加上几个算法增强后很适合神经网络控制器。在另一项实验中，Rajeswaran等人表示，自然策略梯度可以学习用于完成标准的先行策略。也就是说，他们证明静态线性状态的反馈——就像我们在LQR（Linear Quadratic Regulator）中使用的那样——也足以控制这些复杂的机器人模拟器。但这仍然有一个问题：简单随机搜索能找到适合MuJoCo任务的线性控制器吗？

我的学生Aurelia Guy和Horia Mania对此进行了测试，他们编写了一个非常简单的随机搜索版本（是我之前发布的Iqrpols.py中的一个）。令人惊讶的是，这个简单的算法学习了Swimmer-v1，Hopper-v1，Walker2d-v1和Ant-v1任务中的线性策略，这些策略实现了之前文章中提出的奖励阈值。不错！

简单随机搜索：无模型强化学习的高效途径

但是只有随机搜索还不够完美。Aurelia和Horia完全不能用人形模型做出有趣的事。试了很多次参数调整后，他们决定改进随机搜索，让它训练地更快。Horia注意到许多强化学习的论文利用状态的统计数据，并且在将状态传递给神经网络之前能够将状态白化。所以他开始保持在线估计状态，在将他们传递给线性控制器之前将它们白化。有了这个简单的窍门，Aurelia和Horia现在可以让人形机器人做出最佳表现。这实际上是Salimans等人在标准值上达到的“成功阈值”的两倍。只需要线性控制器、随机搜索和一个简单的技巧。

简单随机搜索：无模型强化学习的高效途径

另外还有一件简单的事情就是，代码比OpenAI的进化策略论文中的要快15倍。我们可以用更少的计算获得更高的奖励。用户可以在一小时内在标准18核EC2实例上训练一个高性能人形模型。

现在，随着在线状态的更新，随机搜索不仅超过了人形模型的最佳水平，而且还超越了Swimmer-v1、Hopper-v1、HalfCheetah-v1。但在Walker2d-v1和Ant-v1上的表现还不是很好。但是我们可以再添加一个小技巧。我们可以放弃不会产生良好回报的采样方向。这增加了一个超参数，但有了这一额外的调整，随机搜索实际上可能会达到或超过OpenAI的gym中所有MuJoCo标准的最佳性能。注意，这里并不限制与策略梯度的比较。就我所知，这些策略比任何无模型强化学习的应用结果要好，无论是Actor Critic Method还是Value Function Estimation Method等等更深奥的东西。对于这类MuJoCo问题，似乎纯粹的随机搜索优于深度强化学习和神经网络。

简单随机搜索：无模型强化学习的高效途径

通过一些小调整得到的随机搜索结果胜过了MuJoCo任务中的所有其他方法，并且速度更快。论文和代码都已公布。

从随机搜索中，我们有了以下几点收获：

基准很难

我认为所有这一切唯一合理的结论就是这些MuJoCo Demo很容易，毫无疑问。但是，用这些标准测试NIPS、ICML或ICLR中的论文可能不再合适。这就出现了一个重要的问题：什么是强化学习的良好标准？显然，我们需要的不仅仅是Mountain Car。我认为具有未知动作的LQR是一个合理的任务，因为确定新实例并了解性能的限制是很容易的。但是该领域应该花更多时间了解如何建立有难度的标准。

不要在模拟器上抱太大希望

这些标准比较容易的一部分原因是MuJoCo不是一个完美的模拟器。MuJoCo非常快，并且对于概念验证非常有用。但为了快速起见，它必须在接触点周围进行平滑处理（接触的不连续是使腿部运动困难的原因）。因此，你只能让其中一个模拟器走路，并不意味着你可以让真正的机器人走路。的确，这里有四种让奖励可以达到6000的步态，但看起来都不太现实：

即使是表现最好的模型（奖励达到11600），如下图所示，这种看起来很蠢的步态也不可能应用在现实中：

努力将算法简化

在简单算法中添加超参数和算法小部件，可以在足够小的一组基准测试中提高其性能。我不确定是否放弃最好的方向或状态归一化会对新的随机搜索问题起作用，但这对MuJoCo的标准和有用。通过添加更多可调参数，甚至可以获得更多回报。

使用之前先探索

注意，由于随机搜索方法很快，我们可以评估它在许多随机种子上的表现。这些无模型的方法在这些基准上都表现出惊人的巨大差异。例如，在人形任务中，即使我们提供了我们认为是好的参数，模型的训练时间也慢了四分之一。对于那些随机种子，它会找到相当奇特的步态。如果将注意力限定在三个随机种子上用于随机搜索，通常具有误导性，因为你可能会将性能调整为随机数生成器的特性。

简单随机搜索：无模型强化学习的高效途径

这种现象在LQR上也出现了。我们可以将算法向一些随机种子进行微调，然后在新的随机种子上看到完全不同的行为。Henderson等人用深度强化学习方法观察了这些现象，但我认为如此高的变量将成为所有无模型方法的通用症状。仅通过模拟就能解释很多边界情况。正如我在上一篇文章中所说的：“通过抛弃模型和知识，我们永远不知道是否可以从少数实例和随机种子中学到足够的东西进行概括。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

强化学习

强化学习

+关注

关注
4

文章
269

浏览量
11366

原文标题：简单随机搜索：强化学习的高效途径

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

详解RAD端到端强化学习后训练范式

受限于算力和数据，大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。

发表于 02-25 14:06 •161次阅读

百度搜索与文心智能体平台接入DeepSeek及文心大模型深度搜索

近日，百度搜索与文心智能体平台联合宣布了一项重要更新：将全面接入DeepSeek及文心大模型最新的深度搜索功能。这一更新将为用户和开发者带来更加智能、高效的

发表于 02-17 09:14 •268次阅读

浅谈适用规模充电站的深度学习有序充电策略

深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性，实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取，建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型，并

发表于 02-08 15:00 •232次阅读

浅谈适用规模充电站的深度<b class='flag-5'>学习</b>有序充电策略

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化

发表于 11-22 11:14 •916次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •563次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度学习

发表于 10-23 15:25 •1950次阅读

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •527次阅读

月访问量超2亿，增速113%！360AI搜索成为全球增速最快的AI搜索引擎

和系统自动匹配最佳模型，这使得360AI搜索获得了独一无二的技术优势。除了通用大模型，360AI搜索还配备了众多

发表于 09-09 13:44 •638次阅读

【《大语言模型应用指南》阅读体验】+ 基础知识学习

收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习，还包括对语言的深层次理解，如文化背景、语境含义和情感色彩等。自监督学习：模型采用自监督学习策略，在大量

发表于 08-02 11:03

【《大语言模型应用指南》阅读体验】+ 基础篇

章节最后总结了机器学习的分类：有监督学习、无监督学习、半监督学习、自监督学习和

发表于 07-25 14:33

深度学习中的无监督学习方法综述

深度学习作为机器学习领域的一个重要分支，近年来在多个领域取得了显著的成果，特别是在图像识别、语音识别、自然语言处理等领域。然而，深度学习模型的强大性能往往依赖于大量有标签的数据进行训练

发表于 07-09 10:50 •1128次阅读

tensorflow简单的模型训练

在本文中，我们将详细介绍如何使用TensorFlow进行简单的模型训练。TensorFlow是一个开源的机器学习库，广泛用于各种机器学习任务，包括图像识别、自然语言处理等。我们将从安装

发表于 07-05 09:38 •917次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •473次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

Transformer架构，利用自注意力机制对文本进行编码，通过预训练、有监督微调和强化学习等阶段，不断提升性能，展现出强大的语言理解和生成能力。大语言模型的涌现能力，是指随着模型规模的增长，展现出

发表于 05-04 23:55

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

个文本质量对比模型，用于对有监督微调模型对于同一个提示词给出的多个不同输出结果进行质量排序。这一阶段的难点在于如何限定奖励模型的应用范围及如何构建训练数据。 强化学习阶段，根据数十万

发表于 03-11 15:16

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

简单随机搜索：无模型强化学习的高效途径

从随机搜索中，我们有了以下几点收获：

基准很难

不要在模拟器上抱太大希望

努力将算法简化

使用之前先探索

评论

详解RAD端到端强化学习后训练范式

百度搜索与文心智能体平台接入DeepSeek及文心大模型深度搜索

浅谈适用规模充电站的深度学习有序充电策略

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

如何使用 PyTorch 进行强化学习

AI大模型与深度学习的关系

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

月访问量超2亿，增速113%！360AI搜索成为全球增速最快的AI搜索引擎

【《大语言模型应用指南》阅读体验】+ 基础知识学习

【《大语言模型应用指南》阅读体验】+ 基础篇

深度学习中的无监督学习方法综述

tensorflow简单的模型训练

通过强化学习策略进行特征选择

【大语言模型：原理与工程实践】揭开大语言模型的面纱

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践