强化学习正在推进AI应用-电子发烧友网

就在几年前，能够感知周围环境、识别重要细节——并忽略其余部分——然后利用这些细节来完成任务的技术应用似乎还只是科幻小说中的内容。

然而，现在有几种技术已经成为我们日常生活中不可或缺的一部分：理解和响应人类语言的许多细微差别的智能语音助手，使用成像比人类医生更准确地预测癌症的医学应用程序，以及自动驾驶汽车导航动态环境。它们只是成为头条新闻的一些技术。

强化学习是机器学习的三个分支之一，正在推动其中的许多创新。它使计算机能够识别其环境的重要特征以做出最佳决策——这是一种直到最近才出现的技能。对强化学习 (RL)、人工神经网络 (ANN) 和深度学习 (DL) 的更详细研究揭示了旨在在人类层面上实现 AI 的人工智能应用的新潜力以及仍然存在的挑战。

机器学习方法

机器学习 (ML) 是 AI 的一个子集，它使计算机能够从示例和经验中学习。在 ML 的三个分支中，监督学习和无监督学习可能是最著名的，用于解决定义明确且相对可预测的问题。

监督学习

监督学习 (SL) 方法用于解决带有注释输入数据的问题。这些算法尝试从这些已知示例中学习模式和关联，进而处理未知示例。一个典型的例子是图像识别，其中使用手动注释的图像来训练模型以正确分类新捕获的图像。

无监督学习

无监督学习 (UL) 方法用于推断未注释数据记录中的隐藏结构或关系。这些方法可以在没有太多准备的情况下应用，但通常更具描述性和探索性。它们通常用于为监督方法的使用做准备。一个常见的例子是在交易数据中识别不同的客户群体，这可以在以后促进各种有针对性的营销活动。

强化学习

强化学习 (RL) 是 ML 的第三个分支，它使一些最复杂和最人性化的应用程序成为当今的头条新闻。RL 是一种机器学习，其中奖励和惩罚评估个人行为和可以计划未来行为的输入变量。RL 不是明确地告诉如何解决问题，而是基于最大化奖励和最小化惩罚。RL 不局限于特定的问题或环境，而是专注于根据来自动态环境的复杂输入做出最佳决策的机器。

RL 的基本思想是以类似于人类或任何足够聪明的生物如何学习的方式对学习进行建模：通过尝试实现与奖励相关的特定目标，使用所提供的技能和工具，但没有明确的关于如何解决问题的说明。一个简单的例子是一个机器人，它可以张开和合上手来将球放入盒子中。机器人必须学会它可以抓住球，将它的手臂移动到正确的位置，然后让它落下。这通常涉及多次迭代和重新开始实验。机器人只接收关于其行为是否成功的反馈，并尝试调整其动作直到达到目标。

这与 SL 形成鲜明对比，在 SL 中，一个好的结果需要很多例子——比如大量不同的带注释的猫图像集合——来描述问题的所有维度。这是算法准确了解哪些特征（例如形状或颜色）与正确决策相关的唯一方法。对于机器人的例子，相当于准确而仔细地描述过程的每个步骤——比如将手移动到哪里，施加多大的压力等。对于这个变量很少的例子，也许可以实现这一点详细程度，但如果变量发生变化，则需要重新学习。给定一个更大的球，机器人会不知所措。

在实际应用中，输入、输出和训练数据的平衡变得异常复杂。例如，自动驾驶汽车几乎实时处理大量传感器数据。忽视环境中的细微差别可能会产生重大后果，并且关系重大。这就是为什么强化学习是在禁止或不可能创建训练示例或指令的环境中的首选工具。

强化学习的子类型

与 ML 的其他分支一样，RL 具有共同推动创新的子流派。特别是，特征学习 (FL) 使系统能够识别输入数据的不同细节。人工神经网络 (ANN) 和深度学习 (DL) 为高级解析、处理和学习提供了所需的框架，并支持深度强化学习 (DRL) 的子领域。

特征学习

特征学习（也称为表示学习）是一种 ML 技术，它使机器能够识别通常无法在算法中表示的输入数据的特征和独立组件。例如，在自动驾驶汽车中，周围环境由多个摄像头、雷达和其他传感器感知。这意味着有很多信息可用于决定下一步行动，但只有一小部分是相关的。例如，天空的颜色通常是无关紧要的，而交通灯的颜色却高度相关。一只鸟飞过的速度远不如行人接近路边的速度重要。

为什么表示这种级别的输入函数的能力如此重要？用于训练的数据集对模型的准确性起着关键作用。训练数据越多越好。特别是，数据集中包含的具有清晰和可识别特征的示例越多样化越好。换句话说，输入数据的独特和独立特征帮助计算机弥合了它们已经学过的知识和需要学习的知识之间的差距，以确保无论上下文如何，都能确保 100% 的准确性和一致性。识别独特的特征还有助于识别任何可以忽略的特征和异常值，这反过来又有助于随着时间的推移显着减少数据量。

人工神经网络和深度学习

这些高度可变的应用程序需要一个健壮且可扩展的框架。一种受到广泛关注的方法，特别是在监督学习中，是深度学习。结合强化学习的原理，我们称之为深度强化学习。

人工神经网络 (ANN) 的基本思想可以追溯到 1960 年代，大致基于人脑的网络状神经结构。人工神经网络包含一个巨大的人工神经元网络，称为感知器，感知器接收输入信号，评估各种输入特征，然后通过网络中继信号，直到达到输出信号。

该网络由神经元的数量、连接的强度和数量以及神经元的激活阈值来定义。这是输入信号必须传递的强度。人工神经网络具有包含多个输入和输出级别的可扩展结构，使用中间的隐藏级别将输入转换为输出级别可以使用的内容。专业术语深度学习源自具有许多连续神经元层的网络，因此是深度的。

人工神经网络特别适合从复杂的输入数据和动态环境中生成最佳答案，因为它们通过反向传播进行学习。对于任何给定的训练信号——例如，描述图像坐标和颜色值的向量——网络会检查生成的输出是否正确，然后稍微调整网络中的权重以获得所需的结果。经过足够多的训练迭代后，网络变得稳定，现在可以识别以前未知的情况。

人工神经网络、深度学习和强化学习的局限性

ANN 和 DL 具有巨大的潜力，因为它们能够表示特征并在动态环境中做出最佳响应。然而，它们的能力带来了更多挑战，并揭示了在模仿人类智能的某些方面仍存在的一些差距。

需要数百万个节点、连接和训练迭代

建模相关问题需要 ANN 具有大量节点和连接，以处理需要分析和存储的数百万个不同变量。现代计算机直到最近才使这成为可能。同样，所需的训练循环次数可以达到数十亿，并随着环境变量的数量呈指数增长。强化学习的第一个重大突破是在围棋等游戏中取得的，这并非巧合，名为 AlphaGo 的人工智能现在设法击败了最好的人类棋手：游戏规则——例如可能的行动和结果——以及由于目标明确，让 AI 与自己对弈，很容易快速执行许多模拟游戏。下一个进化步骤是玩电子游戏，例如超级马里奥™或星际争霸，其中行动和结果之间的关系更为复杂。尽管如此，环境仍然有限，许多迭代的快速模拟也是可能的。

然而，对于像自动驾驶这样的现实问题，情况就不同了。安全到达目的地这个首要任务还是比较容易制定的。然而，环境明显更加多样化，模拟需要更加复杂才能使它们对了解实际问题有用。最终，模拟仍然需要用实际驾驶来代替，以考虑其他无法建模的因素，并且在实现人类绩效之前，将继续需要密切监控。例如，自动驾驶汽车制造商 Waymo 在 2020 年的一份新闻稿中表示，其汽车需要 1400 年的驾驶经验才能与人类司机竞争。这是令人惊讶的，因为一个人只需练习几周就可以安全地驾驶汽车。为什么不是

与抽象和推理相关的能力

人们可以快速学会玩游戏或开车，因为人脑可以通过抽象和推理来学习。通过这种类型的学习，例如，由于人类天生的空间意识，驾驶员可以从另一个角度或在另一个环境中想象交通灯的样子。人类还可以在道路上发现颜色与之前看到的不同的汽车，并根据观察和经验得出结论。

此类功能最近才在 ANN 中得到探索。尽管网络的不同层级可以捕获输入的不同方面，例如形状和颜色，但网络只能处理明确包含在训练数据中的特征。如果 AI 在白天接受训练，则该模型不太可能在晚上处理其他情况。即使使用 DL，也必须在训练数据中考虑到这种差异，并且与训练数据的可接受偏差程度非常小。

目前正在探索通过抽象和推理进行学习的各种技术，但它们揭示了更多的挑战和局限性。人工神经网络失败的一个常见例子是计算机视觉系统，该系统以极高的可靠性检测到西伯利亚哈士奇犬——比其他犬种更可靠。仔细检查后发现，网络将注意力集中在几乎所有哈士奇图像中出现的雪上，而忽略了狗本身。换句话说，该模型没有看到地面的颜色——对人类来说是一个微不足道的细节——并不是狗的固有属性。

这个例子看起来平庸和人为，但现实世界的后果可能是可怕的。让我们再看看自动驾驶汽车的例子，事故很少见，但可以追溯到模棱两可的情况。2018 年一名行人在四车道高速公路上推着自行车意外死亡就是一个例子，这种情况对于人类司机来说很容易处理，但由于 ANN 处理不当而导致碰撞和死亡。在许多小时的训练中没有观察到这种情况，并且没有足够的故障转移——“如果你不知道该怎么做，就停下来！”——已实施。结果，该系统似乎做出了不合理的反应，因为它缺乏人类智能的基本基石。

更糟糕的是，人工智能中的这些盲点可能会被那些企图伤害他人的人利用。例如，如果在训练过程中插入经过处理的图像，图像分类可能会完全被误导。尽管图像中的微小变化人类无法察觉，但相同的变化在 ANN 中可能会有不同的感知和解释。在一个示例中，带有不起眼贴纸的停车标志被错误地识别为其他标志。如果这个经过训练的模型用于实际的汽车，这可能会导致事故。另一方面，人类司机当然仍然可以毫无问题地识别停车标志。

克服障碍和限制

这些以及其他障碍和限制引发了如何向前推进并使 ANN 能够进一步填补做出最佳决策方面的差距的问题。简单的答案是更多的培训。如果训练数据的可变性和质量足够好，它可以将错误率降低到模型精度可以接受的程度。已经表明，自动驾驶汽车发生事故的频率已经低于人类驾驶员，但“异常事故”的可能性阻碍了更广泛的接受。

另一种系统方法是明确编码所需的背景知识，并使其在 ML 过程中可用。例如，Cycorp 创建的知识库已经存在多年，包含数百万个概念和关系，包括前面提到的停车标志的含义。目的是以机器可读的形式手动编码人类知识，以便 AI 可以依靠训练数据并得出结论并评估未知情况，至少在某种程度上，以类似于人类直觉的方式。

结论

能够感知周围环境并识别重要细节并做出最佳决策的技术不再是科幻小说。强化学习是机器学习的三个分支之一，它提供了可以处理高维变量和动态环境的工具和框架。然而，这些解决方案也带来了新的挑战，特别是需要广泛的神经网络、全面的训练，以及通过抽象和推理来模仿人类的学习能力以适应新的情况。尽管人工智能能够取得令人瞩目的成就，并且在许多现实世界的应用中变得越来越不可或缺，但它距离实现人类水平的学习能力还有很长的路要走。体验中间步骤或许比科幻小说本身更有趣。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31043

浏览量
269391
机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132752
强化学习

强化学习

+关注

关注
4

文章
267

浏览量
11266

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

近日，专注于模型赛道的初创企业边塞科技宣布被蚂蚁集团收购。据悉，此次交易完成后，边塞科技将保持独立运营，而原投资人已全部退出。与此同时，蚂蚁集团近期宣布成立强化学习实验室，旨在推动大模型强化学习

发表于 11-22 11:14 •616次阅读

NVIDIA AI正加速推进药物研发

在当前的医疗健康领域，AI 的重要性愈发凸显。NVIDIA AI 正加速推进药物研发，致力于减少药物的研发时间和成本，使更多的老年患者能够更快获得关键治疗。

发表于 11-19 16:07 •250次阅读

如何使用 PyTorch 进行强化学习

强化学习（Reinforcement Learning, RL）是一种机器学习方法，它通过与环境的交互来学习如何做出决策，以最大化累积奖励。PyTorch 是一个流行的开源机器学习库，

发表于 11-05 17:34 •320次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大模型的基础技术支撑：深度学习

发表于 10-23 15:25 •892次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

for Science的技术支撑”的学习心得，可以从以下几个方面进行归纳和总结： 1. 技术基础的深入理解在阅读第二章的过程中，我对于AI for Science所需的技术基础有了更加深入的理解。这一章详细阐述了

发表于 10-14 09:16

RISC-V如何支持不同的AI和机器学习框架和库？

RISC-V如何支持不同的AI和机器学习框架和库？还请坛友们多多指教一下。

发表于 10-10 22:24

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

近日，谷歌在芯片设计领域取得了重要突破，详细介绍了其用于芯片设计布局的强化学习方法，并将该模型命名为“AlphaChip”。据悉，AlphaChip有望显著加速芯片布局规划的设计流程，并帮助芯片在性能、功耗和面积方面实现更优表现。

发表于 09-30 16:16 •431次阅读

Python在AI中的应用实例

Python在人工智能（AI）领域的应用极为广泛且深入，从基础的数据处理、模型训练到高级的应用部署，Python都扮演着至关重要的角色。以下将详细探讨Python在AI中的几个关键应用实例，包括机器学习、深度

发表于 07-19 17:16 •1155次阅读

通过强化学习策略进行特征选择

更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中，我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习，尤其是马尔可夫决策

发表于 06-05 08:27 •373次阅读

工信部强化5G-A技术突破推进5G-A网络建设

工信部强化5G-A技术突破推进5G-A网络建设昨天，在2024世界电信和信息社会日大会上，工业和信息化部副部长张云明表示：工业和信息化部明确强化5G-A、6G等关键技术突破，强化人

发表于 05-18 15:53 •1174次阅读

浅谈AI技术在SSD控制器中的应用

当前AI技术蓬勃发展，深度学习、强化学习等技术不断突破，使得AI在图像识别、语音识别、自然语言处理等领域取得了显著成果。

发表于 04-20 10:02 •930次阅读

汤姆猫正在推进申请接入OpenAI的Sora模型

汤姆猫在互动平台上透露，公司正在积极推进申请接入OpenAI的Sora模型，并计划进行相关素材制作的测试。目前，汤姆猫尚未正式接入Sora模型。

发表于 03-05 10:20 •921次阅读

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的行为策略。

发表于 02-20 09:55 •1.4w次阅读

AI算法的本质是模拟人类智能，让机器实现智能化

电子发烧友网报道（文/李弯弯）AI算法是人工智能领域中使用的算法，用于模拟、延伸和扩展人的智能。这些算法可以通过机器学习、深度学习、强化学习等技术实现，并被广泛应用于语音识别、自然语言

发表于 02-07 00:07 •5837次阅读

AI PC时代正在向我们走来

AI无处不在，充满未知和期待的AI PC时代正在向我们走来，我们的生活和工作方式即将发生改变。

发表于 01-19 09:49 •628次阅读

搜索历史

强化学习正在推进AI应用

评论

蚂蚁集团收购边塞科技，吴翼出任强化学习实验室首席科学家

NVIDIA AI正加速推进药物研发

如何使用 PyTorch 进行强化学习

AI大模型与深度学习的关系

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

RISC-V如何支持不同的AI和机器学习框架和库？

谷歌AlphaChip强化学习工具发布，联发科天玑芯片率先采用

Python在AI中的应用实例

通过强化学习策略进行特征选择

工信部强化5G-A技术突破推进5G-A网络建设

浅谈AI技术在SSD控制器中的应用

汤姆猫正在推进申请接入OpenAI的Sora模型

一文详解Transformer神经网络模型

AI算法的本质是模拟人类智能，让机器实现智能化

AI PC时代正在向我们走来