七个克服机器学习障碍的因果推理工具-电子发烧友网

近日，Judea Pearl 发表技术报告，指出当前机器学习的三个主要障碍，并提出了强人工智能的完整结构应该包含三个层级，而当前的机器学习尚处于底层，最后他列举了七个用于克服这些障碍的因果推理工具。

机器学习的巨大成功带来了 AI 应用的爆炸式增长以及对具备人类级别智能的自动化系统不断增长的期望。然而，这些期望在很多应用领域中都遇到了基本的障碍。其中一个障碍就是适应性或鲁棒性。机器学习研究者注意到当前的系统缺乏识别或响应未经特定编程或训练的新环境的能力。人们在「迁移学习」、「域适应」和「终身学习」[Chen and Liu 2016] 这些方向进行大量理论和实验研究就是为了克服这个障碍。

另一个障碍是可解释性，即「机器学习模型仍然主要是黑箱的形式，无法解释其预测或推荐背后的原因，因此降低了用户的信任，阻碍了系统诊断和修复。」[Marcus 2018]

第三个障碍和对因果关系的理解相关。理解因果关系这一人类认知能力的标志是达到人类级别智能的必要（非充分）条件。这个要素应该使计算机系统对环境进行简洁的编码和模块化的表征，对表征进行质询，通过想象对表征进行变化，并最终回答类似「如果……会如何？」这样的问题。例如，干预性的问题：「如果我让……发生了会如何？」，以及回溯性或解释性的问题：「如果我采取不同的做法会如何？」或「如果某件事情没有发生会如何？」

Pearl 假设以上三个障碍需要用结合了因果建模工具的机器来解决，特别是因果图示和它们的相关逻辑。图模型和结构模型的进展使得反事实推理在计算上可行，因此使得因果推理成为强人工智能中的有效组件。

在下一部分中，作者将描述限制和支配因果推理的三个层级。最后一部分总结了如何使用因果推理的现代工具避免传统机器学习的障碍。

三层因果层级

因果模型揭示的一个有用观点是按照问题类型对因果信息进行分类，每个类别能够回答特定的问题。该分类形成了一个三层的层级结构，只有在获取第 j 层（j ≥ i）信息时，第 i 层（i = 1, 2, 3）的问题才能够被解答。

图 1 展示了该三层层级结构，以及每一层可回答的典型问题。这三层的名字分别是 1. 关联（Association）、2. 干预（Intervention）、3. 反事实（Counterf actual）。这些名字是为了凸显每一层的作用。作者将第一层叫做「关联」是因为它仅仅调用统计关系，由裸数据来定义。例如，观察一位购买牙膏的顾客使得他／她购买牙线的可能性增大；此类关联可以使用条件期望直接从观测数据中推断得到。这一层的问题不需要因果信息，因此它们可以被放置在该三层层级架构的最底层。第二层「干预」层次比「关联」高，因为它不只涉及观察，还会改变观察到的信息。这一层的典型问题是：如果我们把价格提高一倍会怎样？此类问题无法仅根据销售数据来回答，因为它们涉及顾客行为针对新价格所作出的改变。这些选择可能与之前的提价情况中顾客所作出的选择大相径庭。（除非我们精确复制价格提高一倍时的已有市场条件。）最后，顶层是「反事实」，「反事实」一词可以追溯到哲学家 David Hume 和 John Stewart Mill，在过去二十年中「反事实」被赋予了和计算机有关的语义。这一层的典型问题是「如果我采取不同的做法会怎样」，因此需要回溯推理（retrospective reasoning）。

图 1：因果层级。只有可获取第 i 层及以上层级的信息时，第 i 层的问题才可以被解答。

因果推理的 7 个工具（或只有使用因果模型才能做到的事情）

考虑以下 5 个问题：

给定的疗法在治疗某种疾病上的有效性？

是新的税收优惠导致了销量上升吗？

每年的医疗费用上升是由于肥胖症人数的增多吗？

招聘记录可以证明雇主的性别歧视罪吗？

我应该放弃我的工作吗？

这些问题的一般特征是它们关心的都是原因和效应的关系，可以通过诸如「治疗」、「导致」、「由于」、「证明」和「我应该」等词识别出这类关系。这些词在日常语言中很常见，并且我们的社会一直都需要这些问题的答案。然而，直到最近也没有足够好的科学方法对这些问题进行表达，更不用说回答这些问题了。和几何学、机械学、光学或概率论的规律不同，原因和效应的规律曾被认为不适合应用数学方法进行分析。

这种误解有多严重呢？实际上仅几十年前科学家还不能为明显的事实「mud does not cause rain」写下一个数学方程。即使是今天，也只有顶尖的科学社区能写出这样的方程并形式地区分「mud causes rain」和「rain causes mud」。

过去三十年事情已发生巨大变化。一种强大而透明的数学语言已被开发用于处理因果关系，伴随着一套把因果分析转化为数学博弈的工具。这些工具允许我们表达因果问题，用图和代数形式正式编纂我们现有的知识，然后利用我们的数据来估计答案。进而，这警告我们当现有知识或可获得的数据不足以回答我们的问题时，暗示额外的知识或数据源以使问题变的可回答。

作者把这种转化称为「因果革命」（Pearl and Mackenzie, 2018, forthcoming），而导致因果革命的数理框架称之为「结构性因果模型」（SCM）。

SCM 由三部分构成：

1. 图模型

2. 结构化方程

3. 反事实和介入式逻辑

图模型作为表征知识的语言，反事实逻辑帮助表达问题，结构化方程以清晰的语义将前两者关联起来。

图 2 描述了 SCM 作为推断引擎时的运行流程。该引擎接受三种输入：假设（Assumptions）、查询（Queries）和数据（Data），并生成三种输出：被估量（Estimand）、估计值（Estimate）和拟合指数（fit indices）。被估量（E_s）是一个数学公式，该公式基于假设，提供从任意假设数据中回答查询的方法（可获取假设数据的情况下）。在接收到数据后，该引擎使用被估量来生成问题的实际估计值 E_s hat，以及问题置信度的统计估计值（以反映数据集的有限规模，以及可能的衡量误差或缺失数据）。最后，该引擎生成一个「拟合指数」列表，可衡量数据与模型传递的假设的兼容性。

图 2：SCM「推断引擎」结合数据和因果模型（或假设），生成查询的答案。

接下来介绍 SCM 框架的 7 项最重要的特性，并讨论每项特性对自动化推理做出的独特贡献。

1. 编码因果假设—透明性和可试性

图模型可以用紧凑的格式编码因果假设，同时保留透明性和可试性。其透明性使我们可以了解编码的假设是否可信（科学意义上），以及是否有必要添加其它假设。可试性使我们（作为人类或机器）决定编码的假设是否与可用的数据相容，如果不相容，分辨出需要修改的假设。利用 d-分离（d-separate）的图形标准有助于以上过程的执行，d-分离构成了原因和概率之间的关联。通过 d-分离可以知道，对模型中任意给定的路径模式，哪些依赖关系的模式才是数据中应该存在的（Pearl，1988）。

2. do-calculus 和混杂控制

混杂是从数据中提取因果推理的主要障碍，通过利用一种称为「back-door」的图形标准可以完全地「解混杂」。特别地，为混杂控制选择一个合适的协变量集合的任务已被简化为一种简单的「roadblocks」问题，并可用简单的算法求解。（Pearl，1993）

为了应对「back-door」标准不适用的情况，人们开发了一种符号引擎，称为 do-calculus，只要条件适宜，它可以预测策略干预的效应。每当预测不能由具体的假设确定的时候，会以失败退出（Pearl, 1995; Tian and Pearl, 2002; Shpitser and Pearl, 2008）。

3. 反事实算法

反事实分析处理的是特定个体的行为，以确定清晰的特征集合。例如，假定 Joe 的薪水为 Y=y，他上过 X=x 年的大学，那么 Joe 接受多一年教育的话，他的薪水将会是多少？

在图形表示中使用反事实推理是将因果推理应用于编码科学知识的非常有代表性的研究。每一个结构化方程都决定了每一个反事实语句的真值。因此，我们可以解析地确定关于语句真实性的概率是不是可以从实验或观察研究（或实验加观察）中进行估计（Balke and Pearl, 1994; Pearl, 2000, Chapter 7）。

人们在因果论述中特别感兴趣的是关注「效应的原因」的反事实问题（和「原因的效应」相对）。（Pearl，2015）

4. 调解分析和直接、间接效应的评估

调解分析关心的是将变化从原因传递到效应的机制。对中间机制的检测是生成解释的基础，且必须应用反事实逻辑帮助进行检测。反事实的图形表征使我们能定义直接和间接效应，并确定这些效应可从数据或实验中评估的条件（Robins and Greenland, 1992; Pearl, 2001; VanderWeele, 2015）

5. 外部效度和样本选择偏差

每项实验研究的有效性都需要考虑实验和现实设置的差异。不能期待在某个环境中训练的模型可以在环境改变的时候保持高性能，除非变化是局域的、可识别的。上面讨论的 do-calculus 提供了完整的方法论用于克服这种偏差来源。它可以用于重新调整学习策略、规避环境变化，以及控制由非代表性样本带来的偏差（Bareinboim and Pearl, 2016）。

6. 数据丢失

数据丢失的问题困扰着实验科学的所有领域。回答者不会在调查问卷上填写所有的条目，传感器无法捕捉环境中的所有变化，以及病人经常不知为何从临床研究中突然退出。对于这个问题，大量的文献致力于统计分析的黑箱模型范式。使用缺失过程的因果模型，我们可以形式化从不完整数据中恢复因果和概率的关系的条件，并且只要条件被满足，就可以生成对所需关系的一致性估计（Mohan and Pearl, 2017）。

7. 挖掘因果关系

上述的 d-分离标准使我们能检测和列举给定因果模型的可测试推断。这为利用不精确的假设、和数据相容的模型集合进行推理提供了可能，并可以对模型集合进行紧凑的表征。人们已在特定的情景中做过系统化的研究，可以显著地精简紧凑模型的集合，从而可以直接从该集合中评估因果问询。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31845

浏览量
270676
机器学习

机器学习

+关注

关注
66

文章
8453

浏览量
133166

原文标题：传统机器学习尚处于因果层级的底层，达成完备AI的7个工具

文章出处：【微信号：gh_ecbcc3b6eabf，微信公众号：人工智能和机器人研究院】欢迎添加关注！文章转载请注明出处。

传统机器学习方法和应用指导

用于开发生物学数据的机器学习方法。尽管深度学习（一般指神经网络算法）是一个强大的工具，目前也非常流行，但它的应用领域仍然有限。与深度

发表于 12-30 09:16 •433次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

将自然语言理解与运动规划融为一体。这种端到端的方法使机器人能够直接从人类指令生成动作序列，大幅简化了控制流程。该项目的工作流程包含设计并封装一个人机器人函数库、编写清晰地描述提示词、在仿真环境中执行

发表于 12-24 15:03

ADI电源管理工具推荐

ADI 提供了一整套电源管理工具，帮助您一次性正确设计电源解决方案。ADI 的电源管理工具支持从零件推荐到性能估算、实用的电源树设计、电路仿真和系统级优化的整个设计过程。探索这些免费且强大的工具

发表于 12-23 09:46 •458次阅读

cmp项目管理工具的优缺点

、风险管理和沟通管理等。综合项目管理平台CMP的优缺点优点项目集成：CMP项目管理工具将各种项目管理工具和功能整合在一个平台上，提供一个统一的界面和数据源，便于项目经理监控和管

发表于 12-17 09:42 •316次阅读

使用机器学习和NVIDIA Jetson边缘AI和机器人平台打造机器人导盲犬

，是 Ornek 迄今为止创造的七个机器人之一。在她所创造的机器人中，有一个名为 BB4All 的学校援助机器人，可以通过实时通知和健康监测

发表于 11-08 10:05 •468次阅读

具身智能与机器学习的关系

（如机器人、虚拟代理等）通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力，还包括感知、运动控制和环境适应能力。具身智能强调智能体的身体和环境在智能发展中的重要性。 2. 机器

发表于 10-27 10:33 •530次阅读

七腾机器人：防爆轮式机器人-四轮八驱全新上线

今日，七腾机器人有限公司（以下简称“七腾机器人”）推出全新产品：防爆轮式机器人-四轮八驱。该款产品是七

发表于 10-21 16:32 •263次阅读

单片机方案开发-分享七个常用的外围电路设计

在电子产品电路开发设计中，外围电路设计是连接主控芯片与外部世界的关键桥梁，它直接影响着整个产品的性能、稳定性及功耗。今天，今天英锐恩科技的技术小编跟大家分享七个常用的外围电路设计，助电子工程师们

发表于 09-24 15:59

放大器OPA548的七个针脚与电源和负载是怎么接线的？

请问：放大器OPA548的七个针脚与电源和负载是怎么接线的？

发表于 09-23 08:19

NE5534导入到Pspice只有七个脚，且按照生成的.lib文件对应的管脚连接的电路仿真出错怎么解决？

NE5534导入到Pspice只有七个脚且按照生成的.lib文件对应的管脚连接的电路仿真出错求解NE5534的准确pspice模型

发表于 08-15 08:10

LLM大模型推理加速的关键技术

LLM（大型语言模型）大模型推理加速是当前人工智能领域的一个研究热点，旨在提高模型在处理复杂任务时的效率和响应速度。以下是对LLM大模型推理加速关键技术的详细探讨，内容将涵盖模型压缩、解码方法优化、底层优化、分布式并行

发表于 07-24 11:38 •1118次阅读

单片机控制电磁阀

一共七个开关七个电磁阀每个开关控制一个电磁阀电源关闭状态下一号开关闭合二号开关常开三号开关常开四号开关闭合五号开关闭合六号开关常开七号开关常开写一

发表于 07-23 12:25

深度学习编译工具链中的核心——图优化

等，需要调整优化网络中使用的算子或算子组合，这就是深度学习编译工具链中的核心——图优化。图优化是指对深度学习模型的计算图进行分析和优化的过程，通过替换子图（算子）为在推理平台上性能更佳

发表于 05-16 14:24 •1116次阅读

机器学习8大调参技巧

今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化，需要搜索超参数的最佳配置以实现最佳性能。

发表于 03-23 08:26 •742次阅读

机器故障排除需要考虑的七个要素

了解可编程逻辑控制器（PLC）和计算机，对于机器控制以及传感器和不同驱动器的运营非常重要。了解用于访问程序的不同软件类型和用于显示数字和文本信息的不同数据类型。

发表于 03-13 10:45 •790次阅读

搜索历史

七个克服机器学习障碍的因果推理工具

评论

传统机器学习方法和应用指导

《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

ADI电源管理工具推荐

cmp项目管理工具的优缺点

使用机器学习和NVIDIA Jetson边缘AI和机器人平台打造机器人导盲犬

具身智能与机器学习的关系

七腾机器人：防爆轮式机器人-四轮八驱全新上线

单片机方案开发-分享七个常用的外围电路设计

放大器OPA548的七个针脚与电源和负载是怎么接线的？

NE5534导入到Pspice只有七个脚，且按照生成的.lib文件对应的管脚连接的电路仿真出错怎么解决？

LLM大模型推理加速的关键技术

单片机控制电磁阀

深度学习编译工具链中的核心——图优化

机器学习8大调参技巧

机器故障排除需要考虑的七个要素