本文在MIT在线课程《3.Data Analysis for Social Scientists》中Causality(因果关系)部分课程的课件基础上,补充了相关信息、增长了我的理解,详细介绍了因果关系的本质及其实践。面试
本篇是四篇系列文章的第一篇,主要解读因果关系定义与潜在结果分析框架。网络
咱们常常作出的因果陈述(Causal Statements),好比:
app
▫ 由于她吃了药,因此她头疼好多了框架
▫ 由于她上了MIT,因此她找到了好工做dom
▫ 由于她是非裔美国人,因此她没有得到面试机会大数据
这些因果陈述到底想表达什么意思呢?这些陈述中暗含着一个反事实(counterfactual)的世界(相似平行宇宙的想法)。不一样的行为发生了,对应上面三个例子:编码
▫ (反事实)她没有吃药设计
▫ (反事实)她没有上MIT,她可能作了其它事情(可作了什么在陈述中并无明确指出)cdn
▫ (反事实)这里意思不彻底清楚,是改变的她的种族?仍是改变人们在作聘用决定时关于种族的见解?blog
整体来讲,当咱们思考因果关系时,咱们考虑的是操做(干预)一个“因”的可能效果,假如咱们干预或不干预这个“因”,而后什么会发生。
在经济和社会科学领域,许多咱们想回答的问题是因果问题:移民是否下降了本地工人的工资?贸易是否增长了不平等?在美国和墨西哥之间创建隔离墙是否能阻止移民?因此在社会科学领域的许多数据科学目标是回答“因”与“果”的问题。
可是,针对一些重要但非因果问题时,因果分析没什么用。例如,咱们可能感兴趣识别在学校儿童存在危险的早期预兆信号,这样咱们能够集中努力解决它们。谷歌会但愿基于人们的搜索模式预测他们对什么东西感兴趣,从而向他们提供他们更可能感兴趣的广告。此时更关注的是相关关系。
统计学分析因果关系使用了因果推断(Causal Inference),提到推断就涉及证实问题,有学者认为统计学不能被“证实”因果,只有“相关”是能够被证实。
有一个颇有名的例子,叫作 Yule-Simpson’s Paradox。有文献称,Karl Pearson 很早就发现了这个悖论——也许这正是他反对统计因果推断的缘由。此悖论代表,存在以下的可能性:X和Y在边缘上正相关(处理效果为正),可是给定另一个变量Z后,在Z的每个取值上,X和Y都负相关。下表是一个数值的例子,处理对整我的群有 “正做用”,奇怪的是,处理对男性有 “负做用”,对女性也有 “负做用”。一个处理对男性和女性都有 “负做用”,可是他对整我的群却有 “正做用”:悖论产生了!
上面的例子是人工构造的,在现实中,也存在很多的实例正是 Yule-Simpson’s Paradox。好比,UC Berkeley 的著名统计学家 Peter Bickel 教授 1975 年在 Science 上发表文章,报告了 Berkeley 研究生院男女录取率的差别。他发现,整体上,男性的录取率高于女性,然而按照专业分层后,女性的录取率却高于男性(Bickel 等 1975)。
在统计上,这具备重要的意义—变量之间的相关关系能够彻底的被第三个变量 “扭曲”。更严重的问题是,咱们的收集的数据可能存在局限性,忽略潜在的“第三个变量” 可能改变已有的结论,而咱们经常却一无所知,虽然对已知的能够经过实验设计以免。鉴于 Yule-Simpson 悖论的潜在可能,很多人认为,统计不可能用来研究因果关系。
在作因果关系研究时,常常用到假设检验、P值以及推导出的统计学意义。通常认为P≤0.05或者P≤0.01就有显著性差别,研究就有统计意义。但,最新一期2019年3月份的Nature杂志发表了三位统计学家的一封公开信,他们号召科学家放弃追求“统计学意义”,而且中止用统计学中常见的P值做为判断标准。统计学上无显著的结果并不能“证实”零假设;统计上显著的结果也没有“证实”某些其余假设。标题犹如战斗檄文同样使人振奋。在文章发出不到24小时,就有250多人签名支持,一周以内吸引了超过800名研究人员共同反对。
文中总结并非要抛弃P值与相关的统计方法,而是要完全理解统计因果分析的内涵,从而在证实因果方面的保持谨慎。研究人员能够从教育本身对统计的误解开始,最重要的是在每项研究中从多个角度考虑不肯定性。
在大数据时代,以前你们过于关注易于被证实的相关关系而忽略了因果,关于因果关系和相关关系的讨论,业内已经进行好久,可是因果对于洞察和预测的价值更大,如今在大数据领域,对于因果应该被从新重视起来,了解因果分析对你们正确理解各类研究结果与数据分析也很是有帮助。
潜在结果框架(Potential Outcome Framework)这个模型由哈佛统计学家Donald Rubin提出。在思考随机对照试验(Randomized Controlled Trials, RCT)和更通常的因果关系时很是有用。这不是在社会科学中思考因果关系的惟一(或最广泛的)方式,在社会科学中SEM(结构方程模型Structural Equation Modeling)更广泛。可是潜在结果框架愈来愈普及,而且越熟悉它,越能在二者之间切换。
潜在结果框架又称为Rubin因果模型(Rubin causal model, RCM)或者Neyman–Rubin因果模型。
(参考:https://en.wikipedia.org/wiki/Rubin_causal_model)
Rubin Causal Model分析框架有三个基本的要素:
潜在结果(Potential Outcome)
个体处理稳定性假设(Stable Unit Treatment Value Assumption,SUTVA)
分配机制(Assignment Mechanism)。
(参考: https://zhuanlan.zhihu.com/p/33299957)
0一、潜在结果
潜在结果:给定一个单元,和一系列动做,咱们把一个“动做-单元”肯定为一个潜在结果。“潜在(potential)”这个词表达的意思是咱们并不老是能在现实中观察到这个结果(outcome),但原则上它们可能发生。
考虑“潜在结果”这个术语迫使我思考“反事实”(counterfactual),由于咱们想知道在那个空间(Space)定义潜在的结果,从而帮助咱们提出良好定义的因果问题,或判断怎样才是良好定义的因果问题。针对开头的三个因果关系陈述的例子:
第一个例子是个比较相对清晰的例子:吃了药对应的反事实是没吃药,有时咱们把“没吃药”做为“控制组”而且把“吃了药(control group)”做为“实验组(treatment group)”;
第二个例子相对有一点不清楚:她不去大学的替代选择是什么呢?
第三个例子更不清楚:若是她是另外一个种族什么会发生,那是什么呢?有哪些不一样的方式?
在下一个单元介绍随机对照试验(RCT)设计时会第二和第三例子如何定义更易于实验的潜在结果与具体的RCT设计。
0二、因果效应的定义
对于任何一个单元,“处理(treatment)”与“不处理(without treatment)”这两个潜在结果之间的差异就是处理的因果效用(Causal Effect),或者说处理效果(Treatment Effect)。
因果效应定义为:(处理)-(不处理),表达式中括弧内的是干预动做,Y表示这个动做的效果。
头疼的例子中存在四种可能性(possibilities):(下面表达式中括弧内的是干预动做,Y表示这个动做的效果,等号后面为效果的值)
Y(吃了阿司匹林)=不头疼;Y(没吃阿司匹林)=头疼
Y(吃了阿司匹林)=头疼;Y(没吃阿司匹林)=头疼
Y(吃了阿司匹林)=不头疼;Y(没吃阿司匹林)=不头疼
Y(吃了阿司匹林)=头疼;Y(没吃阿司匹林)=不一样头疼
对应的治疗效果是:
使头疼消失了(即有效,证实因果关系陈述成立)
没有效果
没有效果
阻止头疼消失(反效果、负效果,虽然不常见但原则上存在这种可能性)
0三、因果推断的基础问题
“因果推断的基础问题”(Holland, 1986)是对于同一个单元最多只有一个潜在结果被实现而能被观测到,总有一个缺失值。因果效应(Causal Effect)是在同一个时间(处理后)对同一个单元的对比,处理效果(Treatment Effect)的计算依赖于全部的潜在结果(Potential Outcomes)而不只仅依赖于实际观测到的结果。
所以,对于处理效果的估计(Estimation),将来对咱们观测到的结果进行对比,咱们将须要许多个单元的数据。(在这个讨论中对同一我的不一样时间的两次不一样测量是两个不一样的单元)
了解(或假设)一些潜在结果(而不是其它的结果)被实现的方式是很是关键的,这个方式会在下一单位分配机制中立刻就会被讨论。
0一、引入多个单元后存在的问题
当考虑多于一个单元时,事情会很快变得复杂。假设Esther和David都在一个办公室,而且都在为这门课准备教案。两我的可能同时头疼,而且两个均可以选择吃(或不吃)阿司匹林。如今每一个人都有四种潜在结果:
Y(EA, DN), Y(EA,DA), Y(EN, DN), Y(EN, DA)。
(E指Esther,D指David,A指吃阿司匹林,N指不吃阿司匹林)
在这种情形下,就有种不一样的比较,针对以上四种潜在结果的两两比较。当咱们添加更多的单元时,咱们就添加了更多的潜在比较:咱们将永远不会得到足够的数据去估计咱们想要的东西。
Esther与David各有四种潜在结果和6种比较,两我的须要被分别编码,这里Y只是关于一我的的,好比Esther,也就是说会有一个表达式(好比Z替换Y)是关于David的。
为何是四种潜在结果?为何两我的的行为要一块儿考察呢?是由于二者的行为存在可能的相互影响。同时这个影响因素不只仅是由于治疗效果,若是仅仅由于治疗效果影响另外一我的是否采起吃药的行动,那就能够减小(状态的)维度了,只进行Esther是否吃药的比较就能够了。影响的因素多是,David说“对不起,我头疼作不了教案了”,那么我(Esther)要作更多的工做因此我就头疼了;或者,他(David)说他头疼,他抱怨,因而就让我头疼了。
“咱们将永远不会得到足够的数据去估计咱们想要的东西”,这里表达是当引入更多单元后状况变得更糟糕了。具体是,当只有(Esther)一我的时,只须要进行一我的两个潜在结果(吃药与不吃药)的一个比较,并能够观测到一个数据点(一我的的一个实现),状况就是有1个数据点的1个比较,固然数据也是不够的;当增长另一我的后,就须要进行4个潜在结果的6种比较,实际能够观测到两个数据点(两我的的各一个实现),因此状况变成是有2个数据点的6种比较,数据就更不够了,引入更多单元后状况没有改善。咱们须要解决这个问题,咱们解决这个问题的方式是用一个假设(SUTVA)。
0二、个体处理稳定性假设
也许在头疼例子中天然的假设是:David的头疼不影响Esther,因此天然的假设是:任何单元的潜在结果(potential outcomes)不会随分配给其它单元的处理(treatment)而变化; 而且,对于每一个单元,没有致使不一样(潜在)结果的一个处理单元的不一样形式或版本,即个体处理稳定性假设(Stable Unit Treatment Value Assumption, SUTVA)。
具体就是,首先,排除(在经济学中被称为的)外部效应或溢出效应,即该效应一我的的处理(treatment)状态直接影响另外一我的;其次,处理(treatment)被良好的定义,反事实(counterfactual)被良好的定义,例如种族的例子就不符合。若是处理A有三种形式,那么处理(treatment)应该被从新定义为A、B、C三种处理而不是一种。
注:SUTVA超出了独立的概念。
https://en.wikipedia.org/wiki/Rubin_causal_model#Stable_unit_treatment_value_assumption_(SUTVA)
从如今开始假设SUTVA成立。那么阿司匹林的例子对David和Esther就简化为两种状况:每一个人吃或不吃阿司匹林与另外一我的作什么是不相关的。这个能够扩展到多个单元,从而能够作下面的定义:
假设有一我的群,人数为N,被编号为i,取值1~N;
Wi表明第i我的被处理(treatment)仍是不处理(without treatment),值为1表示被处理,值为0表示不处理;
Yi表明第i我的的效果,上标obs表示实际被观察到,上标miss表示实际没有被观察到;
那么第i我的的效果存在下面四种可能:
同时,依定义对于第i我的因果效应为:
若是他在被处理组(treatment),Wi = 1,那么他这个个体不被处理状况的效果不会被观察到,即数据缺失;反之,若是他在不处理组(controled),Wi = 0,那么他这个个体被处理状况的效果不会被观察到,即
数据缺失;因此对于单个个体的因果效应定义
中总有一项数据会缺失,也就是同一我的只有一种状况被观察到。
缺乏数据的问题:咱们只观察到,因此咱们不能对一我的计算他的处理效果(treatment effect),咱们须要设法从咱们观测到的数据中推断关于的一些信息,可是为了作到这一点,了解分配机制的原理是很是必要的,即为何一些人被处理而另外一些人没有?
下篇预告:
在下一个单元中,首先将详细介绍如何基于观察数据构建处理效应估计以及估计中存在的选择性误差原理,而后介绍如何经过随机化解决选择性问题以及RCT类型,并进一步说明本单元开头三个例子的RCT具体如何进行设计。
参考资料汇总:
[1]https://prod-edxapp.edx-cdn.org/assets/courseware/v1/6b6442916a97d7afc3e9f40801085486/asset-v1:MITx+14.310x+1T2019+type@asset+block/14310x_Lecture14_New_ToUpload.pdf
[2] https://en.wikipedia.org/wiki/Rubin_causal_model
[3] https://en.wikipedia.org/wiki/Rubin_causal_model#Stable_unit_treatment_value_assumption_(SUTVA)
[4] 因果推断,选择偏误与随机试验https://zhuanlan.zhihu.com/p/33299957
[5] 因果推断简介https://cosx.org/2012/03/causality1-simpson-paradox/
[6] 大学统计学白上了?800多科学家联名反对“统计学意义”,P值该废了
https://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA%3D%3D&chksm=f1219b03c65612150ff28a7564a8a0e738e93aea401a02858feac8e0fe0d035cb6aed52b607c&idx=2&mid=2652041202&scene=0&sn=e077f6cfa985caab7e99ebab4a15113a&xtrack=1#rd
[7]https://www.nature.com/articles/d41586-019-00857-9?from=singlemessage&isappinstalled=0#ref-CR4
注:封面图来源于网络,若有侵权,请联系删除