内生解释变量
内生性的含义
假设多元回归模型:工具
\[y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u \ , \]
回顾零条件均值假设 MLR.4 :spa
\[{\rm E}(u|x_1,x_2,\cdots,x_k)=0 \ , \]
根据 MLR.4 咱们能够获得推论:it
\[{\rm Cov}(u,\,x_j)=0 \ ,\ \ \ \ j=1,2,\cdots,k \ . \]
若是 \({\rm Cov}(x_i,\,u)\neq0\) ,则称 \(x_i\) 为内生解释变量;io
若是 \({\rm Cov}(x_j,\,u)=0\) ,则称 \(x_j\) 为外生解释变量。class
当多元回归模型违背了零条件均值假设时,咱们称模型存在内生解释变量问题,又称内生性问题。在截面数据中,内生性问题只存在同期内生变量的问题;在时间序列数据中,还有可能出现同期无关但异期相关的内生性问题。变量
同期内生变量问题:方法
\[{\rm Cov}(x_i,\,u_i)={\rm E}(x_iu_i)\neq0 \ . \]
同期无关,异期相关问题:im
\[{\rm Cov}(x_t,\,u_t)={\rm E}(x_tu_t)=0 \ , \]
\[{\rm Cov}(x_t,u_{t-s})={\rm E}(x_tu_{t-s})\neq0 \ . \]
所以,在时间序列模型的基本假设 TS.3 中,咱们须要对模型施加严格外生假设,才能保证模型不会出现内生解释变量的问题。统计
内生性的产生缘由
创建的模型中遗漏了重要的解释变量,而且被遗漏的解释变量与模型中的其余解释变量相关:数据
例:假设真实的模型设定为
\[\log(wage)=\beta_0+\beta_1educ+\beta_2abil+\varepsilon \ , \]
因为 \(abil\) 不可观测而估计的模型为
\[\log(wage)=\beta_0+\beta_1educ+u \ , \]
其中 \(u=\beta_2abil+\varepsilon\) 。
此外咱们假设 \({\rm Cov}(educ,\,abil)\neq0\) ,从而 \({\rm Cov}(educ,\,u)\neq0\) ,因而形成了解释变量的内生性问题。
解释变量存在测量偏差:
例:假设真实的模型为
\[y=\beta_0+\beta_1inc^*+\varepsilon \ , \]
因为存在测量偏差而估计的模型为
\[y=\beta_0+\beta_1inc+u \ . \]
其中 \(inc\) 是报告收入,\(inc^*\) 是真实收入,所以测量偏差为 \(e=inc-inc^*\) 。
咱们将真实的模型改写为
\[y=\beta_0+\beta_1(inc-e)+\varepsilon=\beta_0+\beta_1inc+\varepsilon-\beta_1e \ . \]
若是报告收入 \(inc\) 与测量偏差 \(e\) 相关,就会形成内生性问题。
联立方程模型:
- 在一个经济系统中,变量之间相互依存,互为因果,而不是简单的单向因果关系,必须用一组方程才能描述,称为联系方程模型。
- 联系方程模型的每一个方程称为结构方程。
- 每一个结构方程的被解释变量是经济系统的内生变量,而解释变量既包括经济系统的外生变量,也包括其余内生变量,由经济行为关系决定。
- 联系方程模型的每一个结构方程通常都存在内生解释变量的问题。
(咱们在后面单独做为一节来详细讨论联立方程模型)
内生性的后果
违背假设 MLR.4 ,不管样本大小,都会形成OLS 估计量有偏、非一致。不只影响内生解释变量的参数估计,也影响其余外生解释变量的参数估计。
以简单线性回归模型 \(y=\beta_0+\beta_1x+u\) 为例,假设 \(x\) 是内生解释变量:
有偏性:
\[{\rm E}(\hat\beta_1|x)=\beta_1+\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x}){\rm E}(u_i|x)}{SST_x}\neq\beta_1 \ . \]
非一致性:
\[P\lim_{n\to\infty}\hat\beta_1=\beta_1+\frac{{\rm Cov}(x,\,u)}{{\rm Var}(x)}\neq\beta_1 \ . \]
在多元线性回归模型中,用矩阵形式也能够解释:
\[\begin{aligned} {\rm E}(\hat{\boldsymbol\beta}|\boldsymbol{X})&={\rm E}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol{Y}\right] \\ &={\rm E}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\left(\boldsymbol{X}\boldsymbol{\beta}+\boldsymbol u\right)\right] \\ &=\boldsymbol\beta+{\rm E}\left[\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\right)^{-1}\boldsymbol{X}^{\rm T}\boldsymbol u\right]\\ &\neq\boldsymbol{\beta} \ . \end{aligned} \]
最后一行不等号的缘由:存在内生解释变量,即便只有一个,也会使得 \({\rm E}\left(\boldsymbol{X}^{\rm T}\boldsymbol u\right)\neq0\) 。
内生性的修正措施
工具变量法
工具变量的选取
工具变量:在模型参数估计的过程当中被做为工具使用,以替代模型中与随机干扰项相关的内生解释变量。注意,这里的替代指的是矩估计中的矩条件,用工具变量 \(z\) 代替内生解释变量,并不是是将回归模型中的内生解释变量所有替换。
选择为工具变量的变量必须知足如下条件:
假设多元回归模型 \(y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+u\) 中存在内生解释变量 \(x_j\) ,设 \(z\) 为内生解释变量 \(x_j\) 的工具变量,则 \(z\) 须要知足:
(1) 相关性条件:\({\rm Cov}(z,\,x_j)\neq0\) ,
- 工具变量 \(z\) 与内生解释变量高度相关;
- 能够用回归分析的方法进行检验,工具变量的系数显著,至关于两阶段法的第一阶段。
(2) 排他性条件:\({\rm Cov}(z,\,u)=0\) ,
- 工具变量 \(z\) 与干扰项不相关,即 \(z\) 在模型中为外生变量,只能经过内生变量 \(x_j\) 影响 \(y\) 。
一元回归模型的 IV 估计
设一元回归模型以下所示,其中 \(x\) 是内生解释变量:
\[y=\beta_0+\beta_1x+u \ . \]
设 \(z\) 是 \(x\) 的工具变量,知足相关性条件和排他性条件。主要利用矩估计,咱们先对回归模型的两边同时求关于 \(z\) 的协方差:
\[{\rm Cov}(z,\,y)=\beta_1{\rm Cov}(z,\,x)+{\rm Cov}(z,\,u) \ , \]
根据相关性条件和排他性条件,写出整体矩条件:
\[{\rm Cov}(z,\,x)\neq0\ , \ \ \ \ {\rm Cov}(z,\,u)=0 \ . \]
此时咱们称 \(\beta_1\) 被识别了,能够写为:
\[\beta_1=\frac{{\rm Cov}(z,\,y)}{{\rm Cov}(z,\,x)} \ . \]
将整体矩条件改写为样本矩的形式,咱们能够获得 \(\beta_1\) 的 IV 估计量:
\[\hat{\beta}_1=\frac{\sum\limits_{i=1}^n(z_i-\bar z)(y_i-\bar y)}{\sum\limits_{i=1}^n(z_i-\bar z)(x_i-\bar x)} \ . \]
此时 \(\beta_0\) 的 IV 估计量为:
\[\hat{\beta}_0=\bar y-\hat{\beta}_1\bar x \ . \]
能够证实 IV 估计量在小样本是有偏的估计量,可是在大样本下是一致的估计量。
多元回归模型的 IV 估计
咱们用矩阵形式来解释多元回归模型的工具变量法,首先写出回归模型:
\[\boldsymbol{y}=\boldsymbol{x\beta}+\boldsymbol{u} \ . \]
设 \(x_2\) 为内生解释变量,咱们定义工具变量矩阵 \(\boldsymbol z\) 为用工具变量 \(z\) 代替 \(x_2\) 以后的矩阵:
\[\boldsymbol z = \left[ \begin{array}{cccc} 1 & x_{11} & z_1 & \cdots & x_{1k} \\ 1 & x_{21} & z_2 & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n1} & z_n & \cdots & x_{nk} \\ \end{array} \right] \ . \]
由整体矩条件 \({\rm E}(z_iu_i)=0\) 咱们能够获得样本矩条件 \(\boldsymbol{z}^{\rm T}\boldsymbol{u}=0\) ,所以咱们在回归模型中左乘矩阵 \(\boldsymbol{z}^{\rm T}\) :
\[\boldsymbol{z}^{\rm T}\boldsymbol{y}=\boldsymbol{z}^{\rm T}\boldsymbol x\boldsymbol\beta \ . \]
此时咱们有 \(\boldsymbol\beta\) 的 IV 估计量为:
\[\tilde{\boldsymbol\beta}=\left(\boldsymbol{z}^{\rm T}\boldsymbol x\right)^{-1}\boldsymbol{z}^{\rm T}\boldsymbol{y} \ . \]
两阶段最小二乘法 2SLS
两阶段法适用于单个内生解释变量,多个工具变量的情形。假设多元回归模型设定以下:
\[Y=\beta_0+\beta_1X_1+\cdots+\beta_kX_k+u \ , \]
假设 \(X_k\) 是内生解释变量,其余解释变量均为外生解释变量,设 \(Z\) 是影响 \(X_k\) 且外生的工具变量。
step.1 令 \(X_k\) 对 \(Z,X_1,\cdots,X_{k-1}\) 作回归,获得 \(X_k\) 的拟合值
\[X_k=\delta_0+\delta_1Z+\delta_2X_1+...+\delta_kX_{k-1}+v \ , \]
\[\hat{X}_k=\hat\delta_0+\hat\delta_1Z+\hat\delta_2X_1+...+\hat\delta_kX_{k-1} \ . \]
step.2 用 \(\hat{X}_k\) 代替 \(X_k\) 进行多元回归:
\[Y=\beta_0+\beta_1X_1+..\beta_k\hat{X}_k+u \ . \]
若是有多个工具变量,只需在第一阶段将全部工具变量放在等号右边进行回归便可
此时获得的 \(\hat\beta_k\) 被称为两阶段法估计量,是有偏但一致的估计量。
豪斯曼检验
对内生性的检验方法,比较经常使用的就是豪斯曼检验。咱们设定以下模型:
\[y_1=\beta_0+\beta_1y_2+\beta_2z_1+\beta_3z_2+u_1 \ , \]
其中咱们怀疑内生变量为 \(y_2\),已知的外生变量为 \(z_1\),\(z_2\),结构方程中不出现的外生变量 \(z_3\),\(z_4\)。
豪斯曼建议直接比较 OLS 和 2SLS 估计值,判断其差别是否在统计上显著。若是全部变量都是外生的,则 OLS 和 2SLS 都是一致的。若是 2SLS 与OLS 明显不一样,就判定 \(y_2\) 一定是内生的。
step.1 将 \(y_2\) 对全部外生变量回归而估计 \(y_2\) 的约简型方程,获得残差 \(\hat{\nu}_2\) :
\[y_2=\pi_0+\pi_1z_1+\pi_2z_2+\pi_3z_3+\pi_4z_4+\nu_2 \ , \]
咱们认为 \(y_2\) 与 \(u_1\) 不相关的充要条件为 \(\nu_2\) 与 \(u_1\) 不相关 。
这一步起到了过滤器的做用:\(\nu_2\) 是 \(y_2\) 中内生的部分。
step 2. 检验方程 \(u_1=\delta_1\nu_2+\varepsilon_1\) 中的 \(\delta_1=0\) 的假设:
\[y_1=\beta_0+\beta_1y_2+\beta_2z_1+\beta_3z_2+\delta_1\hat{\nu}_2+\varepsilon_1 \ , \]
使用 OLS 估计,根据 \(t\) 统计量检验 \(\delta_1=0\) 。若是 \(\delta_1\) 显著为 \(0\) ,则 \(y_2\) 为同期外生变量。
联立方程问题
英文解释为 Simultaneous Equations——互为因果致使的内生性问题:
\[Y_1=\beta_0+\beta_1 Y_2+\beta_2 Z_2 +\varepsilon \ , \]
\[Y_2=\gamma_0+\gamma_1 Y_1+\gamma_2 X_2 +u \ . \]
其中 \(Z_2\) 和 \(X_2\) 都是外生变量,\({\rm E}(\varepsilon|Z_2,\,X_2)=0\),\({\rm E}(u|Z_2,X_2)=0\) ,结构方程的因变量 \(Y_1\) 和 \(Y_2\) 都是内生变量,有联立方程系统(SES)决定。此时,经过 OLS 估计任何一个结构方程都得不到结构型参数的一致且无偏的估计量。
假设 \(\varepsilon\) 和 \(u\) 相互独立,且假设 \(\gamma_1\beta_1\neq1\) ,这意味着两个结构方程不该该描述两个内生变量相同的结构关系。
能够获得如下推论:
- 若 \(\gamma_1\neq0\) ,则有 \({\rm E}(\varepsilon|Y_2)\neq0\ \text{or} \ \text{constant}\) .
- 若 \(\beta_1\neq0\) ,则有 \({\rm E}(u|Y_1)\neq0\ \text{or} \ \text{constant}\) .
推论的证实以下:
把 \(Y_1\) 代入到 \(Y_2\) 的结构方程中,
\[Y_2=\gamma_0+\gamma_1(\beta_0+\beta_1Y_2+\beta_2Z_2+\varepsilon)+\gamma_2X_2+u \ , \]
求解 \(Y_2\) 获得:
\[Y_2=\frac{\gamma_0+\gamma_1\beta_0}{1-\gamma_1\beta_1}+\frac{\gamma_1\beta_2}{1-\gamma_1\beta_1}Z_2+\frac{\gamma_2}{1-\gamma_1\beta_1}X_2+\frac{\gamma_1\varepsilon}{1-\gamma_1\beta_1}+\frac{u}{1-\gamma_1\beta_1} \ , \]
所以有
\[{\rm E}(Y_2\varepsilon)=\frac{{\rm E}(\gamma_1\varepsilon^2)}{1-\gamma_1\beta_1}=\frac{\gamma_1\sigma_\varepsilon^2}{1-\gamma_1\beta_1}\neq0\ . \]
同理能够求解 \(Y_1\) 获得
\[Y_1=\frac{\beta_0+\beta_1\gamma_0}{1-\gamma_1\beta_1}+\frac{\gamma_2\beta_1}{1-\gamma_1\beta_1}Z_2+\frac{\beta_2}{1-\gamma_1\beta_1}X_2+\frac{\beta_1u}{1-\gamma_1\beta_1}+\frac{\varepsilon}{1-\gamma_1\beta_1} \ , \]
\[{\rm E}(Y_1u)=\frac{{\rm E}(\beta_1u^2)}{1-\gamma_1\beta_1}=\frac{\beta_1\sigma_u^2}{1-\gamma_1\beta_1}\neq0 \ . \]
求解 \(Y_1\) 和 \(Y_2\) 以后的方程被称为约简型方程,须要注意如下两点:
- 约简型方程是关于外生解释变量的方程;
- 约简型方程没有经济学解释。
在当前的模型设定下,\(X_2\) 能够做为 \(Y_2\) 的工具变量, \(Z_2\) 能够做为 \(Y_1\) 的工具变量。