不可预测性、不可解释性和不可理解性
介绍
AI 研究人员开始确定工程 AI 安全的主要挑战,例如解决价值对齐问题作为过去 60 年 AI 失败的主要原因。另一个暴露的现实是:机器越智能,人类就越无法预测、解释和理解其影响。
不可预测性
人工智能的不可预测性是指我们无法准确、一致地预测系统将用于实现其目标的具体行动。如果我们想象一场智能国际象棋比赛,我们可以预测 AI 会赢——如果这是它的目标——但我们无法预测它为实现目标会采取的确切动作。这种情况下的后果并不显着,但不可预测性随着目标的智能和复杂性的增加而增加。如第 2 部分所述,假设 AI 的任务是治愈癌症;从理论上讲,它可以通过消灭人类来做到这一点。
这些临时步骤取决于几个因素,包括 AI 在整个过程中的交互。第 3 部分中介绍的 Microsoft 的 Tay(bot)开始根据与在线人的互动用不恰当的评论激怒他人。更重要的是,低智能系统无法学会预测高智能系统做出的决定。尽管高级人工智能可以将所有可能的选择、决策或策略理论化,但人类没有这种能力。对于在某个领域比人类具有更高智能的狭窄系统,情况可能类似,即使该系统总体上能力较差。
无法解释
无法解释指的是不可能以既可理解又准确的方式解释智能系统做出的决定。例如,用于批准或拒绝抵押贷款的人工智能可能会使用数百万甚至数十亿个加权因素来做出决定。但当申请人被拒绝时,解释会指出一两个因素,例如“信用不良”或“薪水不足”。然而,这种解释充其量只是对如何做出决定的简化。这类似于糟糕的图像压缩,其中数据在缩小过程中丢失,即使生成的图像在很大程度上代表了原始图像。以类似的方式,解释抵押贷款拒绝是基于“不良信用”而忽略了其他因素可能产生的影响。由此产生的解释是不完整的,因此不是 100% 准确。
其他因素是否一定需要解释?他们可以。例如,在美国,涉及贷款、住房、医疗保健等的决策不能基于受保护的阶层。用于批准或拒绝抵押贷款的人工智能不能在决策过程中使用年龄或性别等因素,但这些数据可以成为因素。例如,如果抵押贷款公司历来拒绝向居住在旧金山且没有大学学位的 18-25 岁拉丁裔女性提供贷款,人工智能可能会了解到符合这些标准的申请人拖欠贷款的风险更高,无论是否有其他有利条件标准。在这里,不可预测性也会出现,但这是一个很好的例子,说明为什么能够准确、完整地解释决策很重要。
不可理解
如果抵押贷款拒绝得到完整和准确的解释,解释是否可以理解?可理解性在某种程度上是相对于个人的;拥有金融学位或在抵押贷款行业拥有多年经验的人会比没有类似领域智慧的人更(或更容易)理解准确和完整的解释。也就是说,考虑到一百万个不同加权因素的系统的详细响应对于人类来说是不可理解的,因为我们没有存储容量、内存和理解那么多相互关联的变量的能力。
对安全人工智能的影响
不可预测性、不可解释性和不可理解性使得实现 100% 安全的 AI 变得不可能,因为即使是既定的标准、法律和工具也无法适当地鼓励或阻止不必要的影响。即使我们能够预测 AI 行为,我们也无法在不限制智能或系统价值的情况下有效地控制行为。当然,评估和调试 AI 故障需要易于理解的解释,随着机器智能的增加,这种解释变得越来越不可能。接下来,第 5 部分探讨了 AI 安全将如何影响工程领域。
审核编辑hhy
-
AI
+关注
关注
87文章
30673浏览量
268840 -
人工智能
+关注
关注
1791文章
47151浏览量
238134
发布评论请先 登录
相关推荐
评论