基于PPO强化学习算法的AI应用案例

《超级马里奥兄弟》你能玩到第几关？说起这款FC时代的经典游戏，大家可能再熟悉不过了，大鼻子、留胡子，永远穿着背带工装服的马里奥大叔，成为了很多80/90后的童年回忆。看着画面中熟悉的马里奥大叔一路跌跌撞撞，躲避半路杀出来的毒蘑菇，锤子乌龟，头盔兔子、食人花，感觉又回到了小时候。

最早发行的这版《超级马里奥兄弟》设置8个场景，每个场景分为4关，共32个关卡，相信很多朋友至今还没有完全通关。

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此，他决定利用强化学习AI 算法来帮他完成未通关的遗憾。

现在他训练出的AI马里奥大叔已经成功拿下了29个关卡。

不过，遗憾的是第4、7、8场景中的第4关卡未通过。Viet Nguyen解释说，这与游戏规则的设置有关。在一场游戏结束后，玩家可以自行选择通关路径，但这可能出现重复访问同一关卡的情况，所以AI未成功进入到这三关游戏之中。

Viet Nguyen使用的强化学习算法正是OpenAI研发的近端策略优化算法（Proximal Policy Optimization，简称PPO），他介绍，此前使用A3C代码训练马里奥闯关，效果远不及此，这次能够达到29关也是超出了原本的预期。

现在Viet Nguyen已经将基于PPO编写的完整Python代码发布到了Github上，并给出了详细的使用说明，感兴趣的朋友可以体验一下：

Github地址：https://github.com/uvipen/Super-mario-bros-PPO-pytorch

还会玩Dota的AI算法：PPO

据了解，PPO是OpenAI在2017年开发的算法模型，主要用来训练虚拟游戏玩家OpenAI Five，这位虚拟玩家在2018年的Dota2人机对抗赛中，战胜过世界顶级职业选手，同时能够打败99.95%的普通玩家。

复杂的游戏环境一直被研究人员视为AI训练的最佳场景。为了让AI掌握游戏规则，学会运用策略，强化学习是研究人员常用的机器学习方法之一，它能够描述和解决AI智能体（Agent）在与环境交互过程中通过学习策略实现特定目标的问题。

近端策略优化算法（PPO）已成为深度强化学习基于策略中效果最优的算法之一。有关该算法的论文已经发布在arXiv预印论文库中。

论文中指出，PPO是一种新型的策略梯度（Policy Gradient）算法，它提出新的“目标函数”可以进行多个训练步骤，实现小批量的更新，解决PG算法中步长难以确定的问题。固定步长的近端策略优化算法如下：

（每次迭代时，N个actor中的每个都收集T个时间步长的数据。然后在这些NT时间步长的数据上构建替代损失，并使用 minibatch SGD 进行K个epochs的优化。）

研究人员表明，该算法具有信任区域策略优化（TRPO）的一些优点，但同时比它实施起来更简单，更通用，具有更好的样本复杂性（凭经验）。为了证实PPO的性能，研究人员在一些基准任务上进行了模拟测试，包括人形机器人运动策略和Atari游戏的玩法。

PPO算法的基准任务测试

在游戏角色的AI训练中，一种基本的功能是具备连续性的运行和转向，如在马里奥在遇到诸如地面或者空中障碍时，能够以此为目标进行跳转和躲避。论文中，研究人员为了展示PPO的高维连续控制性能，采用3D人形机器人进行了测试，测试任务分别为：

（1）仅向前运动；（2）每200个时间步长或达到目标时，目标位置就会随机变化；（3）被目标击倒后，需要从地面站起来。以下从左至右依次为这三个任务的学习曲线。

研究人员从以上学习曲线中，随机抽取了任务二在某一时刻的性能表现。如下图，

可以看出，在第六帧的放大图中，人形机器人朝目标移动，然后随机改变位置，机器人能够跟随转向并朝新目标运行。说明PPO算法在连续转控方面具备出色的性能表现。

那么它在具体游戏中“获胜率”如何呢？研究人员运用Atari游戏合集（含49个）对其进行验证，同时与A2C和ACER两种算法进行了对比。为排除干扰因素，三种算法全部使用了相同的策略网络体系，同时，对其他两种算法进行超参数优化，确保其在基准任务上的性能最大化。

如上图，研究人员采用了两个评估指标：（1）在整个训练期间每集的平均获胜数；（2）在持续100集训练中的每集的平均获胜数。前者更适合快速学习，后者有助于最终的比赛表现。可以看出PPO在指标一种的获胜次数达到了30，在小样本下有更高的胜率。

最后研究人员还强调，PPO近端策略优化的优势还在于简洁好用，仅需要几行代码就可以更改为原始策略梯度实现，适用于更常规的设置，同时也具有更好的整体效果。

阅读全文

算法(90512) 算法(90512)
AI(263628) AI(263628)
强化学习(11109) 强化学习(11109)

拆解大语言模型RLHF中的PPO算法

由于本文以大语言模型 RLHF 的 PPO 算法为主，所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步，即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章，所以我在叙述的时候不会假设你已经非常了解强化学习了。

2023-12-11 18:30:49

1151

基于强化学习的自动码率调节算法的技术架构与实现要点

本文来自爱奇艺资深工程师王亚楠在LiveVideoStackCon2018热身分享，由LiveVideoStack整理而成。在分享中，王亚楠介绍了自动码率调节算法的实现过程与评价标准，以及基于强化学习的自动码率调节算法的技术架构与实现要点。

2018-08-02 17:51:41

6146

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

2023-04-11 14:57:12

5344

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

2023-07-01 10:29:50

1002

Facebook推出ReAgent AI强化学习工具包

Facebook近日推出ReAgent强化学习（reinforcement learning）工具包，首次通过收集离线反馈（offline feedback）来实现策略评估（policy evaluation）。

2019-10-19 09:38:41

1347

人工智能AI-深度学习C#&LabVIEW视觉控制演示效果

不断变化的，因此深度学习是人工智能AI的重要组成部分。可以说人脑视觉系统和神经网络。2、目标检测、目标跟踪、图像增强、强化学习、模型压缩、视频理解、人脸技术、三维视觉、SLAM、GAN、GNN等。

2020-11-27 11:54:42

反向强化学习的思路

强化学习的另一种策略（二）

2019-04-03 12:10:44

基于深度强化学习的飞机大战游戏

如何训练AI玩飞机大战游戏（创号版）

2019-07-01 12:27:34

机器学习工程师必知的10大算法

`转一篇好资料机器学习算法可以分为三大类：监督学习、无监督学习和强化学习。监督学习可用于一个特定的数据集（训练集）具有某一属性（标签），但是其他数据没有标签或者需要预测标签的情况。无监督学习可用

2017-04-18 18:28:36

深度学习DeepLearning实战

内容2:课程一： Tensorflow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

2021-01-09 17:01:54

深度学习技术的开发与应用

时间安排大纲具体内容实操案例三天关键点1.强化学习的发展历程2.马尔可夫决策过程3.动态规划4.无模型预测学习5.无模型控制学习6.价值函数逼近7.策略梯度方法8.深度强化学习-DQN算法系列9.

2022-04-21 14:57:39

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

2021-01-10 13:42:26

经典算法大全（51个C语言算法+单片机常用算法+机器学十大算法）

无监督学习算法中，我们没有目标或结果变量来预测。通常用于不同群体的群体聚类。无监督学习的例子：Apriori 算法，K-means。0.3 强化学习 工作原理： 强化学习（reinforcement

2018-10-23 14:31:12

黑科技！看大神如何使用AI设计微波集成电路

AI是如何设计微波集成电路的AI能学会设计集成电路，靠的是一个“基于聚类和异步的优势行动者评论家算法模型”。文章介绍道，该模型包含两部分——聚类算法和强化学习神经网络模型。其中，聚类算法用来对网格化

2019-08-16 07:00:00

强化学习（PPO）小车避障

机器人

JameScottX发布于 2022-02-22 10:28:56

基于强化学习的飞行自动驾驶仪设计

针对强化学习在连续状态连续动作空间中的维度灾难问题，利用BP神经网络算法作为值函数逼近策略，设计了自动驾驶仪。并引入动作池机制，有效避免飞行仿真中危险动作的发生。首先

2013-06-25 16:27:22

强化学习在RoboCup带球任务中的应用刘飞

强化学习在RoboCup带球任务中的应用_刘飞

2017-03-14 08:00:00

深度强化学习是什么？有什么优点？

与监督机器学习不同，在强化学习中，研究人员通过让一个代理与环境交互来训练模型。当代理的行为产生期望的结果时，它得到正反馈。例如，代理人获得一个点数或赢得一场比赛的奖励。简单地说，研究人员加强了代理人的良好行为。

2018-07-13 09:33:00

24321

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深度强化学习DRL非常值得研究。

2018-06-29 18:36:00

27596

萨顿科普了强化学习、深度强化学习，并谈到了这项技术的潜力和发展方向

萨顿在专访中（再次）科普了强化学习、深度强化学习，并谈到了这项技术的潜力，以及接下来的发展方向：预测学习

2017-12-27 09:07:15

10857

基于分层强化学习的多Agent路径规划

针对路径规划算法收敛速度慢及效率低的问题，提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先，将多Agent的运行环境虚拟为一个人工势能场，根据先验知识确定每点的势能值，它代表最优

2017-12-27 14:32:02

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人强化学习的规则，为强化学习系统

2018-01-09 14:43:49

强化学习的风储合作决策

在风储配置给定前提下，研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易，通过合作提升其市场竞争的能力。针对现有研究的不足，在具有过程化样本的前提下，引入强化学习算法

2018-01-27 10:20:50

解析图像分类器结构搜索的正则化异步进化方法并和强化学习方法进行对比

在本篇论文中，研究人员使用流行的异步进化算法（asynchronous evolutionary algorithm）的正则化版本，并将其与非正则化的形式以及强化学习方法进行比较。

2018-02-09 14:47:41

3454

如何深度强化学习人工智能和深度学习的进阶

传统上，强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。

2018-03-03 14:16:56

3924

基于强化学习的IEEE 802.15.4网络区分服务策略

的基础上增加BCS退避策略以解决流量较大场合业务区分问题；针对协调器节点，提出了基于强化学习的占空比调整策略，该策略能根据不同应用需求和环境变化自适应调整占空比。仿真结果表明，提出算法能针对不同环境满足高优先级业务性能需求，并能根据流量变化进行占空比调整，具有极

2018-03-09 16:02:07

强化学习究竟是什么？它与机器学习技术有什么联系？

Q-learning和SARSA是两种最常见的不理解环境强化学习算法，这两者的探索原理不同，但是开发原理是相似的。Q-learning是一种离线学习算法，智能体需要从另一项方案中学习到行为a*的价值

2018-04-15 10:32:22

12973

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价

2018-05-30 06:53:00

1234

利用强化学习探索多巴胺对学习的作用

当我们使用虚拟的计算机屏幕和随机选择的图像来模拟一个非常相似的测试时，我们发现，我们的“元强化学习智能体”（meta-RL agent）似乎是以类似于Harlow实验中的动物的方式在学习，甚至在被显示以前从未见过的全新图像时也是如此。

2018-05-16 09:03:39

4475

一种新型的强化学习算法，能够教导算法如何在没有人类协助的情况下解开魔方

McAleer和他的团队称这个过程为“一种新型的强化学习算法，能够教导算法如何在没有人类协助的情况下解开魔方。” 他们声称，这种学习算法可以在30步内解开100％的随机打乱魔方 - 这和人类的表现不相上下或优于人类的表现。

2018-06-22 16:49:39

3600

Q Learning算法学习

Q Learning算法是由Watkins于1989年在其博士论文中提出，是强化学习发展的里程碑，也是目前应用最为广泛的强化学习算法。

2018-07-05 14:10:00

3368

强化学习在自动驾驶的应用

自动驾驶汽车首先是人工智能问题，而强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物。今天人工智能头条给大家介绍强化学习在自动驾驶的一个应用案例，无需3D地图也无需规则，让汽车从零开始在二十分钟内学会自动驾驶。

2018-07-10 09:00:29

4676

AI核心领域——强化学习的缺陷

前段时间，OpenAI的游戏机器人在Dota2的比赛中赢了人类的5人小组，取得了团队胜利，是强化学习攻克的又一游戏里程碑。

2018-07-13 08:56:01

4439

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动来学习。

2018-07-15 10:56:37

17106

OpenAI 把在模拟器中强化学习学到的方案迁移到机械手上

这些具有一定难度的任务 OpenAI 自己也在研究，他们认为这是深度强化学习发展到新时代之后可以作为新标杆的算法测试任务，而且也欢迎其它机构与学校的研究人员一同研究这些任务，把深度强化学习的表现推上新的台阶。

2018-08-03 14:27:26

4305

强化学习泡沫之后，人工智能的终极答案是什么？

结合 DL 与 RL 的深度强化学习（Deep Reinforcement Learning, DRL）迅速成为人工智能界的焦点。

2018-08-09 10:12:43

5789

强化学习环境研究，智能体玩游戏为什么厉害

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外，各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数，例如电子游戏中不断增加的“分数”。

2018-08-18 11:38:57

3363

强化学习和监督式学习, 非监督式学习的区别

而这时，强化学习会在没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，就这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

2018-08-21 09:18:25

19123

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人类职业玩家的Open AI Five。

2018-08-31 09:20:49

3498

Google强化学习框架，要满足哪三大特性

强化学习是一种非常重要 AI 技术，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度

2018-09-03 14:06:30

2653

基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务

强化学习是一种训练主体最大化奖励的学习机制，对于目标条件下的强化学习来说可以将奖励函数设为当前状态与目标状态之间距离的反比函数，那么最大化奖励就对应着最小化与目标函数的距离。

2018-09-24 10:11:00

6779

用PopArt进行多任务深度强化学习

按照以往的做法，如果研究人员要用强化学习算法对奖励进行剪枝，以此克服奖励范围各不相同的问题，他们首先会把大的奖励设为+1，小的奖励为-1，然后对预期奖励做归一化处理。虽然这种做法易于学习，但它也改变了智能体的目标。

2018-09-16 09:32:03

5336

AlphaGo首席研究员谈强化学习十大黄金法则！

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议，非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧！

2018-09-17 08:41:19

3067

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

2018-11-02 16:18:15

21017

Facebook开源Horizon主要是为了推进AI强化学习的发展

11月1日，Facebook开源了Horizon，一个由Facebook的AI研究人员、推荐系统专家和工程师共同搭建的强化学习平台，其框架的构建工作开始于两年半前，在过去一年中一直被Facebook内部使用。

2018-11-05 09:34:17

722

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

2018-11-12 14:47:39

4570

量化深度强化学习算法的泛化能力

OpenAI 近期发布了一个新的训练环境 CoinRun，它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标，而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术。

2019-01-01 09:22:00

2122

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

2018-12-24 09:29:56

2949

对NAS任务中强化学习的效率进行深入思考

在一些情况下，我们会用策略函数（policy，总得分，也就是搭建的网络在测试集上的精度（accuracy），通过强化学习（Reinforcement Learning）这种通用黑盒算法来优化。然而，因为强化学习本身具有数据利用率低的特点，这个优化的过程往往需要大量的计算资源。

2019-01-28 09:54:22

4705

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

2019-02-17 09:30:28

3036

一个基于TF2.0的强化学习训练工具

）等算法，还有 DDPG（Deep Deterministic Policy Gradient）、PPO（Proximal Policy Optimization）、Curiosity-Driven Exploration 等算法在计划中。

2019-02-25 09:28:11

3209

多智体深度强化学习研究中首次将概率递归推理引入AI的学习过程

在传统的多智体学习过程当中，有研究者在对其他智能体建模 (也即“对手建模”, opponent modeling) 时使用了递归推理，但由于算法复杂和计算力所限，目前还尚未有人在多智体深度强化学习 (Multi-Agent Deep Reinforcement Learning) 的对手建模中使用递归推理。

2019-03-05 08:52:43

4556

深度强化学习是否已经到达尽头?

近日，Reddit一位网友根据近期OpenAI Five、AlphaStar的表现，提出“深度强化学习是否已经到达尽头”的问题。

2019-05-10 16:34:59

2313

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

2019-06-22 11:17:08

3374

强化学习应用中对话系统的用户模拟器

近几年来，强化学习在任务导向型对话系统中得到了广泛的应用，对话系统通常被统计建模成为一个马尔科夫决策过程（Markov Decision Process）模型，通过随机优化的方法来学习对话策略。

2019-08-06 14:16:29

1836

深度强化学习你知道是什么吗

强化学习非常适合实现自主决策，相比之下监督学习与无监督学习技术则无法独立完成此项工作。

2019-12-10 14:34:57

1092

懒惰强化学习算法在发电调控REG框架的应用

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习(Lazy reinforcement learning, LRL) 算法。

2020-01-16 17:40:00

745

深度强化学习的笔记资料免费下载

本文档的主要内容详细介绍的是深度强化学习的笔记资料免费下载。

2020-03-10 08:00:00

Google正在尝试以基于机器学习算法的AI技术来进行AI芯片开发

Goldie和Mirhoseini将芯片placement建模为强化学习问题。与典型的深度学习不同，强化学习系统不会训练大量的标签数据。相反，他们会边做边学，并在成功时根据奖励信号调整网络中的参数。

2020-03-25 15:23:27

1756

人工智能的强化学习要点

强化学习（RL）是现代人工智能领域中最热门的研究主题之一，其普及度还在不断增长。让我们看一下开始学习RL需要了解的5件事。

2020-05-04 18:14:00

3117

研究人员开源RAD以改进及强化智能学习算法

加州大学伯克利分校的一组研究人员本周开放了使用增强数据进行强化学习(RAD)的资源。

2020-05-11 23:09:04

1179

深度强化学习的概念和工作原理的详细资料说明

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。强化学习RL是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习是机器学习中一种快速、高效且不可替代的学习算法。

2020-05-16 09:20:40

3150

深度强化学习到底是什么？它的工作原理是怎么样的

2020-06-13 11:39:40

5529

复杂应用中运用人工智能核心强化学习

近期，有不少报道强化学习算法在 GO、Dota 2 和 Starcraft 2 等一系列游戏中打败了专业玩家的新闻。强化学习是一种机器学习类型，能够在电子游戏、机器人、自动驾驶等复杂应用中运用人工智能。

2020-07-27 08:50:15

715

AI能在单台计算机训练深度强化学习对处理尤为苛刻

训练最新 AI 系统需要惊人的计算资源，这意味着囊中羞涩的学术界实验室很难赶上富有的科技公司。但一种新的方法可以让科学家在单台计算机上训练先机的 AI。2018 年 OpenAI 报告每 3.4 个月训练最强大 AI 所需的处理能力会翻一番，其中深度强化学习对处理尤为苛刻。

2020-07-29 09:45:38

581

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

2020-11-06 15:33:49

1552

83篇文献、万字总结强化学习之路

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了...

2020-12-10 18:32:50

374

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

2020-12-10 18:43:23

499

强化学习在智能对话上的应用介绍

本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上来源：腾讯技术工程微信号

2020-12-10 19:02:45

781

2021年AI领域的你最应该学的是什么

进入到2021年，AI领域的你最应该学的是什么？我觉得是强化学习。为什么这么说？首先要知道什么是强化学习。 强化学习是机器学习的一种，是一种行为学习模型。由算法提供数据分析反馈，引导用户逐步

2021-01-18 16:16:42

1504

4种解决旅行商问题的强化学习求解算法

Ⅰ为基准算法，其仅利用城市间的距离等静态结构信息来构造初始解，解构造方法2~解构造方法4则尝试利用搜索过程中积累的历史数据，通过强化学习挖掘有用信息，用于引导解的构造过程。在25个国际公开算例上的测试结果表明，基于历史信息的

2021-03-17 11:42:37

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行交互来学习，最终将累积收益最大化。常用的强化学习算法分为

2021-04-08 11:41:58

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型

2021-04-12 11:01:52

当机器人遇见强化学习，会碰出怎样的火花？

当机器人遇见强化学习，会碰出怎样的火花？一名叫 Cassie 的机器人，给出了生动演绎。最近，24 岁的中国南昌小伙李钟毓和其所在团队，用强化学习教 Cassie 走路，目前它已学会蹲伏走路

2021-04-13 09:35:09

2164

强化学习的双权重最小二乘Sarsa算法

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时，传统的最小二乘法作为一类特殊的函数逼近学习方法，具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法

2021-04-23 15:03:03

基于深度强化学习的路口单交叉信号控制

利用深度强化学习技术实现路口信号控制是智能交通领域的硏究热点。现有硏究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题，但这些研究往往忽略了信号灯状态对动作选择的影响以及

2021-04-23 15:30:53

基于强化学习的伪装攻击检测算法

在移动雾计算中，雾节点与移动终端用户之间的通信容易受到伪装攻击，从而带来通信和数据传输的安全问题。基于移动雾环境下的物理层密钥生成策略，提出一种基于强化学习的伪装攻击检测算法。构建移动雾计算中的伪装

2021-05-11 11:48:39

基于强化学习的壮语词标注方法

目前壮语智能信息处理研究处于起步阶段，缺乏自动词性标注方法。针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状，提出一种基于强化学习的壮语词性标注方法。依据壮语的文法特点和中文宾州

2021-05-14 11:29:35

基于深度强化学习仿真集成的压边力控制模型

压边力控制策略的学习优化。基于深度强化学习的压边力优化算法，利用深度神经网络处理巨大的状态空间，避免了系统动力学的拟合，并且使用一种新的网络结构来构建策略网络，将压边力策略划分为全局与局部两部分，提高了压边

2021-05-27 10:32:39

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

2021-06-23 10:42:47

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

2021-06-23 14:59:10

基于强化学习的虚拟场景角色乒乓球训练

基于强化学习的虚拟场景角色乒乓球训练

2021-06-27 11:34:33

使用Matlab进行强化学习电子版资源下载

使用Matlab进行强化学习电子版资源下载

2021-07-16 11:17:09

《自动化学报》—多Agent深度强化学习综述

多Agent 深度强化学习综述来源：《自动化学报》，作者梁星星等摘要近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大

2022-01-18 10:08:01

1226

Oneflow 实现强化学习玩 Flappy Bird 小游戏

本文主要内容是如何用Oenflow去复现强化学习玩 Flappy Bird 小游戏这篇论文的算法关键部分，还有记录复现过程中一些踩过的坑。

2022-01-26 18:19:34

PPO物理改性及化学改性的方法

PPO改性方法分为物理改性(共混、填充等)和化学改性(主链、端基改性等)，物理改性主要是与其他高性能树脂共混形成塑料合金，化学改性是在PPO分子链上引入活性基团改善相容性或与其他分子进行嵌段、接枝以克服自身缺陷。

2022-09-06 15:12:27

2989

强化学习的基础知识和6种基本算法解释

来源：DeepHub IMBA 强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL) ：关注在给

2022-12-20 14:00:02

828

ESP32上的深度强化学习

电子发烧友网站提供《ESP32上的深度强化学习.zip》资料免费下载

2022-12-27 10:31:45

7个流行的强化学习算法及代码实现

作者：Siddhartha Pramanik 来源：DeepHub IMBA 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法

2023-02-03 20:15:06

747

强化学习与智能驾驶决策规划

本文介绍了强化学习与智能驾驶决策规划。智能驾驶中的决策规划模块负责将感知模块所得到的环境信息转化成具体的驾驶策略，从而指引车辆安全、稳定的行驶。真实的驾驶场景往往具有高度的复杂性及不确定性。如何制定

2023-02-08 14:05:16

1441

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

2023-06-19 10:49:27

357

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL)：关注在给定标记训练数据

2023-01-05 14:54:05

419

7个流行的强化学习算法及代码实现

作者：SiddharthaPramanik来源：DeepHubIMBA目前流行的强化学习算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。这些算法已被用于在游戏

2023-02-06 15:06:38

665

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

2023-06-20 09:27:28

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

2023-07-19 14:35:02

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在智能体的开发中不断尝试将强化学习与自然语言处理、计算机视觉

2023-07-24 16:55:02

296

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

2023-09-04 14:26:36

296

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

2023-10-02 10:45:02

403

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1051

已全部加载完成

搜索历史

基于PPO强化学习算法的AI应用案例

评论