人工智能的强化学习要点-电子发烧友网

了解强化学习的要点！

强化学习（RL）是现代人工智能领域中最热门的研究主题之一，其普及度还在不断增长。让我们看一下开始学习RL需要了解的5件事。

1.什么是强化学习？与其他机器学习技术相比有何不同？

强化学习（RL）是一种机器学习技术，使代理能够使用自身行为和经验的反馈，通过反复试验，在交互式环境中学习。

人工智能的强化学习要点

尽管监督学习和强化学习都使用输入和输出之间的映射，但不同于监督学习，后者提供给代理的反馈是执行任务的正确动作集，而强化学习则将奖惩作为正面和负面行为的信号。

与无监督学习相比，强化学习在目标方面有所不同。无监督学习的目标是发现数据点之间的相似点和差异，而在强化学习的情况下，目标是找到合适的行为模型，以最大化代理的总累积奖励。下图说明了通用RL模型的动作奖励反馈回路。

人工智能的强化学习要点

2.如何制定基本的强化学习问题？

描述RL问题基本要素的一些关键术语是：

环境-代理在其中运行的物理世界

状态—代理的现状

奖励-来自环境的反馈

策略-将代理状态映射到操作的方法

价值-代理在特定状态下采取的行动将获得的未来奖励

RL问题可以通过游戏来最好地解释。让我们以吃豆人的游戏为例，代理人（PacMan）的目标是在网格中吃食物，同时避免途中出现鬼魂。在这种情况下，网格世界是代理所作用的交互式环境。如果特工被幽灵杀死（输掉了游戏），代理会得到食物和惩罚的奖励。状态是代理在网格世界中的位置，总累积奖励是赢得比赛的代理。

人工智能的强化学习要点

为了建立最佳政策，代理面临探索新状态的困境，同时又要最大化其整体回报。这称为"探索与利用"的权衡。为了平衡两者，最佳的整体策略可能涉及短期牺牲。因此，代理应收集足够的信息，以便将来做出最佳的总体决策。

马尔可夫决策过程（MDP）是描述RL环境的数学框架，几乎所有RL问题都可以使用MDP来表述。一个MDP由一组有限的环境状态S，在每个状态下的一组可能的动作A，一个实值奖励函数R和一个过渡模型P（s'，s | a）组成。但是，现实环境更可能缺少任何有关环境动力学的先验知识。在这种情况下，无模型RL方法非常方便。

Q学习是一种常用的无模型方法，可用于构建自播放的PacMan代理。它围绕更新Q值的概念展开，Q值表示在状态s中执行动作a的值。以下值更新规则是Q学习算法的核心。

人工智能的强化学习要点

3.什么是最常用的强化学习算法？

Q学习和SARSA（状态行动-奖励状态行动）是两种常用的无模型RL算法。它们的探索策略不同，而利用策略却相似。 Q学习是一种非策略方法，其中代理根据从另一个策略得出的操作a *学习值，而SARSA是一种策略上方法，在其中根据其当前操作a从当前策略得出的值来学习值。政策。这两种方法易于实现，但缺乏通用性，因为它们无法估计未见状态的值。

可以通过更高级的算法（例如使用神经网络来估计Q值的深度Q网络（DQN））来克服这一问题。但是DQN只能处理离散的低维动作空间。

深度确定性策略梯度（DDPG）是一种无模型，脱离策略，对执行者敏感的算法，它通过在高维连续动作空间中学习策略来解决此问题。下图是评论体系结构的表示。

人工智能的强化学习要点

4.强化学习的实际应用是什么？

由于RL需要大量数据，因此最适用于容易获得模拟数据（例如游戏性，机器人技术）的领域。

RL被广泛用于构建用于玩计算机游戏的AI。 AlphaGo Zero是第一个在古代中国的围棋游戏中击败世界冠军的计算机程序。其他包括ATARI游戏，西洋双陆棋等

在机器人技术和工业自动化中，RL用于使机器人能够为其自身创建高效的自适应控制系统，该系统可以从自身的经验和行为中学习。 DeepMind的"通过异步策略更新进行机器人操纵的深度强化学习"就是一个很好的例子。观看这个有趣的演示视频。

RL的其他应用包括抽象文本摘要引擎，对话代理（文本，语音），这些代理可以从用户的交互中学习并随着时间的流逝而改善，学习医疗保健中的最佳治疗策略，以及用于在线股票交易的基于RL的代理。

5.我如何开始进行强化学习？

为了理解RL的基本概念，可以参考以下资源。

《强化学习-入门》，是强化学习之父的一本书-理查德·萨顿（Richard Sutton）和他的博士生导师安德鲁·巴托（Andrew Barto）。这本书的在线草稿可以在这里找到。

David Silver的教学材料（包括视频讲座）是有关RL的入门课程。

Pieter Abbeel和John Schulman（开放式AI /伯克利AI研究实验室）的另一本有关RL的技术教程。

对于开始构建和测试RL代理，以下资源可能会有所帮助。

博客介绍了如何使用来自原始像素的Policy Gradients训练神经网络ATARI Pong代理，Andrej Karpathy将帮助您在130行Python代码中启动并运行您的第一个Deep Reinforcement Learning代理。

·DeepMind Lab是一个类似于开放源代码的3D游戏平台，用于具有丰富模拟环境的基于代理的AI研究。

马尔默项目是另一个支持AI基础研究的AI实验平台。

OpenAI Gym是用于构建和比较强化学习算法的工具包。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1800

文章
48083

浏览量
242144
强化学习

强化学习

+关注

关注
4

文章
269

浏览量
11366

人工智能和机器学习以及Edge AI的概念与应用

与人工智能相关各种技术的概念介绍，以及先进的Edge AI（边缘人工智能）的最新发展与相关应用。 人工智能和机器学习是现代科技的核心技术 人工智能

发表于 01-25 17:37 •419次阅读

嵌入式和人工智能究竟是什么关系?

领域，如工业控制、智能家居、医疗设备等。 人工智能是计算机科学的一个分支，它研究如何使计算机具备像人类一样思考、学习、推理和决策的能力。人工智能的发展历程可以追溯到上世纪50年代，经

发表于 11-14 16:39

如何使用 PyTorch 进行强化学习

的计算图和自动微分功能，非常适合实现复杂的强化学习算法。 1. 环境（Environment）在强化学习中，环境是一个抽象的概念，它定义了智能体（agent）可以执行的动作（actions）、观察到

发表于 11-05 17:34 •563次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2593次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

、优化等方面的应用有了更清晰的认识。特别是书中提到的基于大数据和机器学习的能源管理系统，通过实时监测和分析能源数据，实现了能源的高效利用和智能化管理。其次，第6章通过多个案例展示了人工智能在能源科学中

发表于 10-14 09:27

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，无疑为读者铺设了一条探索人工智能（AI）如何深刻影响并推动科学创新的道路。在阅读这一章后，我深刻感受到了人工智能技术在科学领域的广泛应用潜力以及其带来的革命性变化，以下是我个人的学习心得： 1.

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

与人工智能推荐系统中强大的图形处理器（GPU）一争高下。其独特的设计使得该处理器在功耗受限的条件下仍能实现高性能的图像处理任务。 Ceremorphic公司：该公司开发的分层学习处理器结合了

发表于 09-28 11:00

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

！《AI for Science：人工智能驱动科学创新》这本书便将为读者徐徐展开AI for Science的美丽图景，与大家一起去了解： 人工智能究竟帮科学家做了什么？ 人工智能将如何改变我们所生

发表于 09-09 13:54

人工智能如何强化智能家居设备的功能

，以配合用户的生活习惯与作息。本文将为您介绍人工智能将如何强化智能家居设备的功能，以及由芯科科技（Silicon Labs）所推出的解决方案，将如何增进智能家居设备的功能性与安全性。

发表于 08-27 10:46 •1080次阅读

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

8月28日至30日，2024深圳（国际）通用人工智能大会暨深圳（国际）通用人工智能产业博览会将在深圳国际会展中心（宝安）举办。大会以“魅力AI·无限未来”为主题，致力于打造全球通用人工智能领域集产品

发表于 08-22 15:00

FPGA在人工智能中的应用有哪些？

FPGA（现场可编程门阵列）在人工智能领域的应用非常广泛，主要体现在以下几个方面：一、深度学习加速训练和推理过程加速：FPGA可以用来加速深度学习的训练和推理过程。由于其高并行性和低延迟特性

发表于 07-29 17:05

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •473次阅读

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

https://t.elecfans.com/v/25653.html 人工智能 初学者完整学习流程实现手写数字识别案例_Part1 13分59秒 https://t.elecfans.com/v

发表于 05-10 16:46

机器学习怎么进入人工智能

人工智能(Artificial Intelligence，AI)是一门涉及计算机、工程、数学、哲学和认知科学等多个领域的交叉学科，旨在构建智能化计算机系统，使之能够自主感知、理解、学习和决策。如今

发表于 04-04 08:41 •455次阅读

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V1）

://t.elecfans.com/v/25653.html 人工智能 初学者完整学习流程实现手写数字识别案例 28分55秒 https://t.elecfans.com/v/27184.html

发表于 04-01 10:40

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

人工智能的强化学习要点

评论

人工智能和机器学习以及Edge AI的概念与应用

嵌入式和人工智能究竟是什么关系?

如何使用 PyTorch 进行强化学习

人工智能、机器学习和深度学习存在什么区别

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

risc-v在人工智能图像处理应用前景分析

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

人工智能如何强化智能家居设备的功能

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

FPGA在人工智能中的应用有哪些？

通过强化学习策略进行特征选择

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

机器学习怎么进入人工智能

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V1）