贝叶斯之父Judea Pearl推荐:机器学习因果推理的7个有用工具

三层式因果模型层级

因果模型理论所揭示的一个有用看法是根据每一个类可以回答的问题类型对因果信息进行分类。这种分类造成了三层式的结构,只有当层级 j(j >= i)的信息可用时才能回答层级 i(i = 1,2,3)的问题。算法

图片

最低(第一)层被叫做关联(Association),它涉及由裸数据定义的纯统计关系。大多数机器学习系统运行在这一层上。app

第二层被叫做干预(Intervention),不只涉及到能看到什么,还涉及你可能采起的行动(干预措施)有哪些影响。我认为加强学习系统是运行在这个层上(例如,“若是我把骑士移到这个方格会怎样?”)。加强学习系统倾向于在定义良好的环境中运行,而干预层也包含了更多的开放性挑战。做为例子,Pearl 提了一个问题:“若是咱们将价格翻倍,将会发生什么?”框架

这些问题没法单独从销售数据中获得解答,由于它们涉及客户行为的变化(对新的价格做出反应)。机器学习

我我的认为,若是销售数据能够显示出先前价格上涨所带来的影响,那么极可能能够基于销售数据构建一个预测模型。Pearl 的反驳论点是,除非咱们可以准确地复制以前价格达到当前价格两倍时的市场条件,不然咱们没法真正知道客户会作出怎样的反应。ide

最上面一层被称为反事实(Counterfactual),解决的是“若是……会怎样”问题。当规模很小时,序列到序列生成模型就可以解决问题。咱们能够“重放”序列的开头,修改下一个数据值,而后查看输出会发生什么变化。工具

这些层构成了层次结构,介入性问题没法从纯粹的观察性信息中获得回答,而反事实性问题没法从纯粹的介入性信息中获得回答(例如,咱们没法对已经接受了药物的受试者从新进行实验,以便知道若是不为受试者提供药物会怎样)。在层级 j 回答问题的能力意味着咱们也能够回答层级 i(<=j)的问题。学习

这种层次结构及其所包含的形式限制解释了为何基于关联的机器学习系统没法推理动做、实验和因果解释。测试

结构因果模型编码

结构因果模型(SCM)结合了图形建模、结构方程、反事实和介入逻辑。url

咱们可使用这些工具正式表达因果问题,以图解和代数形式编纂咱们现有的知识,而后利用数据来估计答案。此外,当现有知识状态或现有数据不足以回答咱们的问题时,这个理论会警告咱们,而后建议其余知识或数据来源,让问题变得可回答。

SCM“推理引擎”将假设(以图形模型的形式)、数据和查询做为输入。

例如,下图显示 X(例如服用药物)对 Y 具备因果效应(例如恢复),第三变量 Z(例如性别)影响 X 和 Y。

这让我想起了我在贝叶斯决策方面看到的模型。

有三个输出:

  • Estimand 是一个数学公式,根据假设提供从任何可用假设数据中回答查询的方法。

  • Estimate 是查询的答案,以及置信度的统计估计。

  • 一组拟合指数(Fit Indices)用于衡量数据与假设的兼容程度。若是编码的假设没有任何可测试的含义,则该集合为空。

若是在给定模型假设的状况下没法回答查询,则将其声明为“没法识别”。

所幸的是,咱们已经开发出有效且完整的算法来肯定可识别性,并为各类反事实查询和各类数据类型生成估计。

SCM 能够为咱们作些什么?

Pearl 并无深刻研究 SCM 的运做细节,而是列举了 SCM 框架提供的七种因果推理工具。

1. 透明度和可测试性

透明度让分析师可以辨别出编码假设是否合理,而且源于紧凑的图形表示。

可测试性是经过一个叫做 d-separation 的图形标准来加强的,这个标准提供了缘由和几率之间的基本链接。它告诉咱们,对于模型中任意给定的路径模式,咱们应该指望在数据中找到哪些依赖模式。

2. do-calculus 和混淆控制

这里的混淆彷佛是指潜在变量的存在,潜在变量是两个或多个已观察到的变量的未知成因。如何选择协变量来控制混淆早在 1993 年就已有定论,后来的 do-calculus 在可行的状况下预测政策干预的效果,并在假设不容许预测时退出。

3. 反事实

现代因果关系研究的最大成就之一就是经过图形表示形式化反事实推理。每一个结构方程模型都肯定了每一个反事实句子的真实性。所以,若是句子的几率是从实验或观察研究或两者的组合估计出来的,那么咱们就能够基于分析作出决策。

4. 调解分析

调解分析涉及发现中间机制,经过这些中间机制能够将缘由传给结果。咱们能够发起诸如“X 对 Y 的影响的哪些部分是由变量 Z 调节的”之类的查询。

5. 适应性、外部有效性和样本选择误差

健壮性问题须要环境的因果模型,而且不能在 Association 层面处理...... do-calculus 提供了一种完整的方法用于克服因为环境变化而引发的误差。它既可用于从新调整学习策略以规避环境变化,也可用于控制由非表明性样本引发的误差。

6. 从不完整的数据中恢复

经过使用 SCM 因果模型,咱们有可能对条件进行正规化。在这些条件下,能够从不完整的数据中恢复因果关系和几率关系,而且只要知足条件,就能够为所需关系生成一致的估计。

7. 因果发现

d-separation 标准让咱们可以检测并列举给定模型的可测试含义。咱们还能够推断出与数据兼容的模型集。还有一些方法用于发现因果方向性。

结   论

一方面,这篇文章看起来像是在推广 SCM:“关联机器学习”方法与层次结构中的关联层紧密联系。另外一方面,丰富的因果推理理论彷佛能够为传统的机器学习方法提供不少补充。Pearl 确定也是这么认为的!

鉴于因果模型对社会科学和医学科学产生的变革性影响,咱们很天然会期待机器学习技术也会发生相似的变革。我期待这种共生产生的系统可以使用原生因果语言与用户沟通,而且借助这种能力成为下一代 AI 的主导。

相关文章
相关标签/搜索