就在几年前,能够感知周围环境、识别重要细节——并忽略其余部分——然后利用这些细节来完成任务的技术应用似乎还只是科幻小说中的内容。
然而,现在有几种技术已经成为我们日常生活中不可或缺的一部分:理解和响应人类语言的许多细微差别的智能语音助手,使用成像比人类医生更准确地预测癌症的医学应用程序,以及自动驾驶汽车导航动态环境。它们只是成为头条新闻的一些技术。
强化学习是机器学习的三个分支之一,正在推动其中的许多创新。它使计算机能够识别其环境的重要特征以做出最佳决策——这是一种直到最近才出现的技能。对强化学习 (RL)、人工神经网络 (ANN) 和深度学习 (DL) 的更详细研究揭示了旨在在人类层面上实现 AI 的人工智能应用的新潜力以及仍然存在的挑战。
机器学习方法
机器学习 (ML) 是 AI 的一个子集,它使计算机能够从示例和经验中学习。在 ML 的三个分支中,监督学习和无监督学习可能是最著名的,用于解决定义明确且相对可预测的问题。
监督学习
监督学习 (SL) 方法用于解决带有注释输入数据的问题。这些算法尝试从这些已知示例中学习模式和关联,进而处理未知示例。一个典型的例子是图像识别,其中使用手动注释的图像来训练模型以正确分类新捕获的图像。
无监督学习
无监督学习 (UL) 方法用于推断未注释数据记录中的隐藏结构或关系。这些方法可以在没有太多准备的情况下应用,但通常更具描述性和探索性。它们通常用于为监督方法的使用做准备。一个常见的例子是在交易数据中识别不同的客户群体,这可以在以后促进各种有针对性的营销活动。
强化学习
强化学习 (RL) 是 ML 的第三个分支,它使一些最复杂和最人性化的应用程序成为当今的头条新闻。RL 是一种机器学习,其中奖励和惩罚评估个人行为和可以计划未来行为的输入变量。RL 不是明确地告诉如何解决问题,而是基于最大化奖励和最小化惩罚。RL 不局限于特定的问题或环境,而是专注于根据来自动态环境的复杂输入做出最佳决策的机器。
RL 的基本思想是以类似于人类或任何足够聪明的生物如何学习的方式对学习进行建模:通过尝试实现与奖励相关的特定目标,使用所提供的技能和工具,但没有明确的关于如何解决问题的说明。一个简单的例子是一个机器人,它可以张开和合上手来将球放入盒子中。机器人必须学会它可以抓住球,将它的手臂移动到正确的位置,然后让它落下。这通常涉及多次迭代和重新开始实验。机器人只接收关于其行为是否成功的反馈,并尝试调整其动作直到达到目标。
这与 SL 形成鲜明对比,在 SL 中,一个好的结果需要很多例子——比如大量不同的带注释的猫图像集合——来描述问题的所有维度。这是算法准确了解哪些特征(例如形状或颜色)与正确决策相关的唯一方法。对于机器人的例子,相当于准确而仔细地描述过程的每个步骤——比如将手移动到哪里,施加多大的压力等。对于这个变量很少的例子,也许可以实现这一点详细程度,但如果变量发生变化,则需要重新学习。给定一个更大的球,机器人会不知所措。
在实际应用中,输入、输出和训练数据的平衡变得异常复杂。例如,自动驾驶汽车几乎实时处理大量传感器数据。忽视环境中的细微差别可能会产生重大后果,并且关系重大。这就是为什么强化学习是在禁止或不可能创建训练示例或指令的环境中的首选工具。
强化学习的子类型
与 ML 的其他分支一样,RL 具有共同推动创新的子流派。特别是,特征学习 (FL) 使系统能够识别输入数据的不同细节。人工神经网络 (ANN) 和深度学习 (DL) 为高级解析、处理和学习提供了所需的框架,并支持深度强化学习 (DRL) 的子领域。
特征学习
特征学习(也称为表示学习)是一种 ML 技术,它使机器能够识别通常无法在算法中表示的输入数据的特征和独立组件。例如,在自动驾驶汽车中,周围环境由多个摄像头、雷达和其他传感器感知。这意味着有很多信息可用于决定下一步行动,但只有一小部分是相关的。例如,天空的颜色通常是无关紧要的,而交通灯的颜色却高度相关。一只鸟飞过的速度远不如行人接近路边的速度重要。
为什么表示这种级别的输入函数的能力如此重要?用于训练的数据集对模型的准确性起着关键作用。训练数据越多越好。特别是,数据集中包含的具有清晰和可识别特征的示例越多样化越好。换句话说,输入数据的独特和独立特征帮助计算机弥合了它们已经学过的知识和需要学习的知识之间的差距,以确保无论上下文如何,都能确保 100% 的准确性和一致性。识别独特的特征还有助于识别任何可以忽略的特征和异常值,这反过来又有助于随着时间的推移显着减少数据量。
人工神经网络和深度学习
这些高度可变的应用程序需要一个健壮且可扩展的框架。一种受到广泛关注的方法,特别是在监督学习中,是深度学习。结合强化学习的原理,我们称之为深度强化学习。
人工神经网络 (ANN) 的基本思想可以追溯到 1960 年代,大致基于人脑的网络状神经结构。人工神经网络包含一个巨大的人工神经元网络,称为感知器,感知器接收输入信号,评估各种输入特征,然后通过网络中继信号,直到达到输出信号。
该网络由神经元的数量、连接的强度和数量以及神经元的激活阈值来定义。这是输入信号必须传递的强度。人工神经网络具有包含多个输入和输出级别的可扩展结构,使用中间的隐藏级别将输入转换为输出级别可以使用的内容。专业术语深度学习源自具有许多连续神经元层的网络,因此是深度的。
人工神经网络特别适合从复杂的输入数据和动态环境中生成最佳答案,因为它们通过反向传播进行学习。对于任何给定的训练信号——例如,描述图像坐标和颜色值的向量——网络会检查生成的输出是否正确,然后稍微调整网络中的权重以获得所需的结果。经过足够多的训练迭代后,网络变得稳定,现在可以识别以前未知的情况。
人工神经网络、深度学习和强化学习的局限性
ANN 和 DL 具有巨大的潜力,因为它们能够表示特征并在动态环境中做出最佳响应。然而,它们的能力带来了更多挑战,并揭示了在模仿人类智能的某些方面仍存在的一些差距。
需要数百万个节点、连接和训练迭代
建模相关问题需要 ANN 具有大量节点和连接,以处理需要分析和存储的数百万个不同变量。现代计算机直到最近才使这成为可能。同样,所需的训练循环次数可以达到数十亿,并随着环境变量的数量呈指数增长。强化学习的第一个重大突破是在围棋等游戏中取得的,这并非巧合,名为 AlphaGo 的人工智能现在设法击败了最好的人类棋手:游戏规则——例如可能的行动和结果——以及由于目标明确,让 AI 与自己对弈,很容易快速执行许多模拟游戏。下一个进化步骤是玩电子游戏,例如超级马里奥™或星际争霸,其中行动和结果之间的关系更为复杂。尽管如此,环境仍然有限,许多迭代的快速模拟也是可能的。
然而,对于像自动驾驶这样的现实问题,情况就不同了。安全到达目的地这个首要任务还是比较容易制定的。然而,环境明显更加多样化,模拟需要更加复杂才能使它们对了解实际问题有用。最终,模拟仍然需要用实际驾驶来代替,以考虑其他无法建模的因素,并且在实现人类绩效之前,将继续需要密切监控。例如,自动驾驶汽车制造商 Waymo 在 2020 年的一份新闻稿中表示,其汽车需要 1400 年的驾驶经验才能与人类司机竞争。这是令人惊讶的,因为一个人只需练习几周就可以安全地驾驶汽车。为什么不是
与抽象和推理相关的能力
人们可以快速学会玩游戏或开车,因为人脑可以通过抽象和推理来学习。通过这种类型的学习,例如,由于人类天生的空间意识,驾驶员可以从另一个角度或在另一个环境中想象交通灯的样子。人类还可以在道路上发现颜色与之前看到的不同的汽车,并根据观察和经验得出结论。
此类功能最近才在 ANN 中得到探索。尽管网络的不同层级可以捕获输入的不同方面,例如形状和颜色,但网络只能处理明确包含在训练数据中的特征。如果 AI 在白天接受训练,则该模型不太可能在晚上处理其他情况。即使使用 DL,也必须在训练数据中考虑到这种差异,并且与训练数据的可接受偏差程度非常小。
目前正在探索通过抽象和推理进行学习的各种技术,但它们揭示了更多的挑战和局限性。人工神经网络失败的一个常见例子是计算机视觉系统,该系统以极高的可靠性检测到西伯利亚哈士奇犬——比其他犬种更可靠。仔细检查后发现,网络将注意力集中在几乎所有哈士奇图像中出现的雪上,而忽略了狗本身。换句话说,该模型没有看到地面的颜色——对人类来说是一个微不足道的细节——并不是狗的固有属性。
这个例子看起来平庸和人为,但现实世界的后果可能是可怕的。让我们再看看自动驾驶汽车的例子,事故很少见,但可以追溯到模棱两可的情况。2018 年一名行人在四车道高速公路上推着自行车意外死亡就是一个例子,这种情况对于人类司机来说很容易处理,但由于 ANN 处理不当而导致碰撞和死亡。在许多小时的训练中没有观察到这种情况,并且没有足够的故障转移——“如果你不知道该怎么做,就停下来!”——已实施。结果,该系统似乎做出了不合理的反应,因为它缺乏人类智能的基本基石。
更糟糕的是,人工智能中的这些盲点可能会被那些企图伤害他人的人利用。例如,如果在训练过程中插入经过处理的图像,图像分类可能会完全被误导。尽管图像中的微小变化人类无法察觉,但相同的变化在 ANN 中可能会有不同的感知和解释。在一个示例中,带有不起眼贴纸的停车标志被错误地识别为其他标志。如果这个经过训练的模型用于实际的汽车,这可能会导致事故。另一方面,人类司机当然仍然可以毫无问题地识别停车标志。
克服障碍和限制
这些以及其他障碍和限制引发了如何向前推进并使 ANN 能够进一步填补做出最佳决策方面的差距的问题。简单的答案是更多的培训。如果训练数据的可变性和质量足够好,它可以将错误率降低到模型精度可以接受的程度。已经表明,自动驾驶汽车发生事故的频率已经低于人类驾驶员,但“异常事故”的可能性阻碍了更广泛的接受。
另一种系统方法是明确编码所需的背景知识,并使其在 ML 过程中可用。例如,Cycorp 创建的知识库已经存在多年,包含数百万个概念和关系,包括前面提到的停车标志的含义。目的是以机器可读的形式手动编码人类知识,以便 AI 可以依靠训练数据并得出结论并评估未知情况,至少在某种程度上,以类似于人类直觉的方式。
结论
能够感知周围环境并识别重要细节并做出最佳决策的技术不再是科幻小说。强化学习是机器学习的三个分支之一,它提供了可以处理高维变量和动态环境的工具和框架。然而,这些解决方案也带来了新的挑战,特别是需要广泛的神经网络、全面的训练,以及通过抽象和推理来模仿人类的学习能力以适应新的情况。尽管人工智能能够取得令人瞩目的成就,并且在许多现实世界的应用中变得越来越不可或缺,但它距离实现人类水平的学习能力还有很长的路要走。体验中间步骤或许比科幻小说本身更有趣。
审核编辑:汤梓红
-
AI
+关注
关注
87文章
30104浏览量
268387 -
机器学习
+关注
关注
66文章
8377浏览量
132402 -
强化学习
+关注
关注
4文章
266浏览量
11212
发布评论请先 登录
相关推荐
评论