欢迎投稿(荐稿)计量经济圈,计量相关都行数据结构
邮箱:econometrics666@sina.cnide
copyrights@计量经济圈因果推断研究小组, 欢迎加入交流学习, 值得青睐的博士研究群体组织。工具
谢谢计量经济圈社群的这些话,来者都是缘分,咱们是互相须要的你们庭。学习
多期双重差分法建议使用Pooled OLSui
咱们在上一篇文章里(多期双重差分法,政策实施时间不一样的处理方法)讲了,凡是对于政策实施时间不一致的状况,咱们能够考虑“多期双重差分方法”。在那个DID模型里,只存在DID=treated*time这个交互项了,并且咱们建议最好使用pooled最小二乘法来计算,即咱们使用reg而不是xtreg,由于咱们政策在各个地区实施的时间跨度很大,致使咱们有些用来估计DID交互项的观测变量就不够了。好比,上海建地铁比较早,而长沙建地铁比较晚,可咱们原本能搜集到的数据就只有2007-2016这么十年。如今若长沙是在2015年建地铁,那么他就只会在2015-2016这二年里是处于treated(=1),而你xtreg须要进行组内估计,那就显得处于1的观测值太少了点。所以,咱们能够把panel data这个数据结构给忽略了,直接使用相似于repeated cross section数据结构来估计DID。3d
quietly: reg y αt βi Xit BC*After , cl(id) // 没有加协变量blog
quietly: reg y αt βi Xit BC*After Covariates , cl(id) // 加了协变量it
quietly: areg y αt βi Xit BC*After Covariates iother, a(id) cl(id) //arg: linear regression with a large dummy-variable setio
*DID交互项其余变量能够识别影响机制 **class
咱们上篇文章想要考察地铁修建对城市环境污染的影响。如今,咱们能够看看修建地铁是不是经过影响小轿车(Car)、公共汽车(Bus)和摩托车(Motor)等三种出行方式的选择而间接影响了城市环境污染,由于这三种方式都会形成空气污染。此使,咱们只须要把这个城市的小轿车、公共汽车和摩托车的数量(2007-2016的时间序列)与以前的DID交互项BC*After再次交叉相乘,而且再分别把Car, Bus和Motor的数量放在回归方程中就能够识别这种机制了。仔细看看下面的回归程序,是否是有点像DDD三重差分方法的表达式(咱们会讲一讲DDD)。
quietly: areg y αt βi Xit BCAfter BCAfter*Car Car Covariates i.year, a(id) cl(id)
quietly: areg y αt βi Xit BCAfter BCAfter*Bus Bus Covariates i.year, a(id) cl(id)
quietly: areg y αt βi Xit BCAfter BCAfter*Motor Motor Covariates i.year, a(id) cl(id)
注意:genicv z = BC After // 能够自用用来产生交互项
插一句话:你若是还以为DID也不能解决一些内生性问题,那你可使用工具变量来进行稳健性检验:
qui:areg y BC Covariates i.year, a(id) cl(id)
est store a
qui: xi: ivregress 2sls y BC Covariates i.year (BC = Z1 Z2)
estat overid //过渡识别检验看看选取的工具变量是否是外生的
est store b
hausman a b, constant sigmamore // 用hausman检验工具变量是否是更有效率
再稍微通俗地讲解一下DDD三重差分的思路
咱们如今想要研究香港推行的针对60岁以上的老年人的医保政策,假定该政策生效日期是2008年,那么咱们想要知道是否这个医保政策促进了香港老年人的健康?每当看到这个的时,候咱们首先须要问本身,这里面出现了几个有效信息。
从这个描述来看,咱们可以获得三个有效信息:第一,该政策是在香港实行,第二,该政策是针对60岁以上老年人,第三,该政策生效日期是2008年。若是你发现有三个有效信息,通常而言,咱们最好采用DDD三重差分法来更好地估计该医保政策的效果。标准的DID双重差分法,其实是提供了两个有效信息:香港和2008,即在2008年香港执行该项医保政策,如今的状况是三个有效信息。
咱们推演一下,为何此处最好使用三重差分法来得到政策效应。若是不考虑其余没有执行该项政策的内陆省份的状况,直接用2008年以后香港60岁以上的老年人健康情况与2008年以前的香港60岁以上的老年人健康情况,那谁知道健康情况的变化是否是由于金融危机形成的,因此这里面的混淆因素就理不清楚了。这就是为何咱们须要把其余没有执行该医保政策的内陆省份包括进来做为控制组,来控制这些大环境因素形成的健康情况变化。
另外,若是直接用香港60岁以上老年人群体的健康情况(处理组)减去60岁如下中年人群体的健康情况(控制组),那有什么大的问题呢?咱们压根分不清这个处理组与控制组健康情况差别究竟是不是因为这个医保政策形成的,毕竟老年人和中年人群体的健康情况原本就存在系统性的差别。
标准的三重差分就像下面这个式子所展现的那样,他的变异形式就比较广了,只要有三个交互项的乘积在里面(DID*其余任何一个变量),那他就能够叫作三重差分。