回归公式能够忽略个体与时间变化的差别,所以全部的数据特征能够经过一个公式进行刻画。进行数据的大杂烩、乱炖。为何采起这么直接粗暴的方式呢?由于每一个品种的菜(个体与时间维度)都不多,每个品种的菜都不可以作出完整一盘菜,只能将全部的菜杂七杂八的混合起来乱炖。乱炖虽然说精度不高,但是总比无法处理要好不少。数据结构
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\);
3. \(\varepsilon_{it}与X_{it}不相关\);函数
\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)spa
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\alpha\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
这个模型是将全部的数据\((y,x_1,x_2,x_3,x_4)\),直接导入公式\(Y_{it}=\alpha + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)进行回归,只能求出一组\((\beta_{1},\beta_{2},..,\beta_{k})'\),意味着\(\beta\)在不一样个体、不一样时点上都是同一组,它不会由于时间或个体而发生变更。3d
当你拥有蔬菜的品种足够多,你就能够依据他们的味道单独作一些小炒菜。有一些影响因素A随着一些条件的改变而改变,可是这个因素A并未经过\(X\)观测变量归入模型,好比说咱们研究消费函数,\(C = \alpha + \beta Y + \varepsilon\), 这里的\(\alpha\)叫作自发消费,这个自发性消费是可能和我的特征、所处的社会文化、教育等未观测变量有关,换句话说,截距项 \(\alpha\) 和个体某些未观测到的特质有关,而不和\(Y\)有关。\(\alpha\)和\(\varepsilon\)都是表明了不可观测因素的影响,前者的影响因素是有趋势的(常数也是一种趋势),后者的影响因素是无趋势的。更简单的理解就是,\(\alpha\)存在的意义就是为了使\(\varepsilon\)拥有零均值。blog
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\);
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it}相关\)
5. \(E(\alpha_i)=0\)it
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)table
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\alpha_0\) | 常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
补充:也写为
\(Y_{it}=u_i+ X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(u_i = \alpha_0 +\alpha_i, E(u_i)= \alpha_0,E(\alpha_i)=0\)class
数据结构以下:
test
1.组内(within)估计(离差估计)
离差估计就是剔除常数项,而后进行估计,首先明白咱们的目标:分别计算\(a,b,c,d,e\)组内的截距和各自的组内\(\beta\) .其实,不须要离差就能够回归。将a,b,c,d,e组的数据分别带入\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\),就能够获得结果。变量
离差方差推导
原方程:
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
求均值方程:
\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
离差变换(原方程减均值方程):
\(Y_{it}-\bar Y_{i}=\alpha_0 +\alpha_i -(\alpha_0 +\alpha_i)+ X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(\bar Y_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(Y_{it})\)
\(\bar X_i= \frac{1}{T}\displaystyle\sum_{t=1}^T(X_{it})\)
带入离差数据求解,文字描述
经过\((y,x_1,x_2,x_3,x_4)\)计算组内时间上的均值\(\bar{(y,x_1,x_2,x_3,x_4)}\),而后计算离差\((y,x_1,x_2,x_3,x_4)- \bar{(y,x_1,x_2,x_3,x_4)}\),带入离差方程\(Y_{it}-\bar Y_{i}= X_{it}' \beta - \bar X_{i}' \beta+ \varepsilon_{it}-\bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\)进行估计。
利用估计出的\(\beta\)带入均值方程\(\bar Y_{i}=\alpha_0 +\alpha_i + \bar X_{i}' \beta + \bar \varepsilon_{i},i = 1,2,3,...,N;t=1,2,3,...,T\),求解组内的(\(\alpha_0 +\alpha_i\))
经过上一步\(N\)个组的(\(\alpha_0 +\alpha_i\)),求解\(\alpha_0 = \frac{1}{N}\displaystyle\sum_{t=1}^N(\alpha_0 +\alpha_i)\),依据假设5:\(E(\alpha_i)=0\)
再求解\(\alpha_i = (\alpha_0 +\alpha_i) - \alpha_0\)
2.一阶差分估计
原理: 由于\(\alpha_0 +\alpha_i\)是不受时间影响的,因此咱们可使用差分方法消去常数项
3.LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将个体差别以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D \alpha+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_N \end{pmatrix}\)
其中:
\(D_N=\begin{cases} 1 &\text{if } 为N组 \\ 0 &\text{if } 不为N组 \end{cases}\)
1.\(E(\varepsilon_{it})=0\);
2.\(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\lambda_i 与X_{it}相关\);
\(Y_{it}=\lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\lambda_0\) | 常数项 |
\(\lambda_i\) | 时间效应 |
\(\lambda_0+\lambda_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
数据结构以下:
LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D\lambda+X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_T \end{pmatrix}\)
其中:
\(D_T=\begin{cases} 1 &\text{if } 为T时期 \\ 0 &\text{if } 不为T时期 \end{cases}\)
1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_i 与X_{it}相关\);
5 \(\alpha_i 与X_{it}相关\);
6 \(E(\alpha_i)=0\);
7 \(E(\lambda_i)=0\);
这里咱们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);
\(Y_{it}=(\alpha_0 +\lambda_0)+\alpha_i +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i + \lambda_0 +\lambda_i + X_{it}' \beta + \varepsilon_{it}\)
\(=\tilde{\alpha}_i+\tilde{\lambda}_i+X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\lambda_0\) | 时间效应的常数项 |
\(\lambda_i\) | 时间效应 |
\(\alpha_0\) | 个体特征的常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i+\lambda_0+\lambda_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
数据结构展现:
LSDV(最小二乘虚拟变量法)
学过计量的小伙伴们应该熟悉虚拟变量法,将时间段以截距项形式的虚拟变量加入。
估计方程形式:
\(Y = D_{\lambda}\lambda + D_\alpha\alpha+X\beta + \varepsilon\)
\(D_{\lambda}=\begin{pmatrix} D_1 & D_2&D_3&...&D_T \end{pmatrix}\)
其中:
\(D_T=\begin{cases} 1 &\text{if } 为T时期 \\ 0 &\text{if } 不为T时期 \end{cases}\)
\(D_\alpha=\begin{pmatrix} D_1 & D_2&D_3&...&D_N \end{pmatrix}\)
其中:
\(D_N=\begin{cases} 1 &\text{if } 为N组 \\ 0 &\text{if } 不为N组 \end{cases}\)
也能够将时间与个体效应混合
\(Y = Dh + X\beta + \varepsilon\)
\(D=\begin{pmatrix} D_1 & D_2&D_3&...&D_{N*T} \end{pmatrix}\)
其中:
\(D=\begin{cases} 1 &\text{if } 为第N个体的T时期 \\ 0 &\text{if } 不为第N个体的T时期 \end{cases}\)
1 \(E(\varepsilon_{it})=0\);
2 \(var(\varepsilon)=\sigma_\varepsilon为常数\)
3 \(\varepsilon_{it}与X_{it}不相关\);
4 \(\lambda_i 与X_{it}相关\);
5 \(\alpha_i 与X_{it}相关\);
6 \(E(\alpha_i)=0\);
7 \(E(\lambda_i)=0\);
这里咱们设定:
\(\tilde{\alpha}_i=\alpha_0+\alpha_i;\tilde{\lambda}_i=\lambda_0+\lambda_i\);
8 \(E(\tilde{\alpha}_i)=\alpha_0\);
9 \(E(\tilde{\lambda}_i)=\lambda_0\);
\(Y_{it}=\tilde{\alpha}_i+\tilde{\lambda}_i+D_{type}\gamma+X_{it}' \beta + \varepsilon_{it}, i = 1,2,3,...,N;t=1,2,3,...,T\)
这个方程为了方便理解而设定,其中\(\tilde{\alpha}_i与D_{type}\)存在共线性问题,毕竟类型属性也是个体特征的一部分嘛!
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\lambda_0\) | 时间效应的常数项 |
\(\lambda_i\) | 时间效应 |
\(\alpha_0\) | 个体特征的常数项 |
\(\alpha_i\) | 个体效应 |
\(\alpha_0+\alpha_i+\lambda_0+\lambda_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
\(D_{type}\) | 类型的虚拟变量 |
数据展现
估计方法:同上,将类型变量按照虚拟变量加入方程便可。
背景思想:每组估计值的截距项的变更不与X的特征有关。
1.\(E(\varepsilon_{it})=0\);
2.\(var(\sigma_\varepsilon)为常数\);
3 \(\varepsilon_{it}与X_{it}不相关\);
4. \(\alpha_i 与X_{it},\varepsilon_{it}不相关\);
5. \(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);
\(Y_{it}=\alpha_0 +\alpha_i + X_{it}' \beta + \varepsilon_{it},i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta +(\alpha_i+ \varepsilon_{it}),i = 1,2,3,...,N;t=1,2,3,...,T\)
\(=\alpha_0 + X_{it}' \beta + v_{it}, v_{it}=\alpha_i + \varepsilon_{it}, i = 1,2,3,...,N;t=1,2,3,...,T\)
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta\) | 参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..,\beta_{k})'\) |
\(\alpha_0\) | 常数项 |
\(\alpha_i\) | 随机效应 |
\(\alpha_0+\alpha_i\) | 截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
\(v_{it}=\alpha_i + \varepsilon_{it}\) | 新的随机扰动项 |
根据\(v_{it}=\alpha_i + \varepsilon_{it}\);\(\alpha_i \thicksim i.i.d(0,\sigma_\alpha^2)\);\(\alpha_i 与X_{it},\varepsilon_{it}不相关\);\(var(\varepsilon)=\sigma_\varepsilon为常数\)
推导:
\(cov(v_{it},v_{is})=cov(\alpha_i + \varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i + \varepsilon_{is})+cov(\varepsilon_{it},\alpha_i + \varepsilon_{is})=cov(\alpha_i ,\alpha_i )+cov(\alpha_i ,\varepsilon_{is})+cov(\varepsilon_{it},\alpha_i )+ cov(\varepsilon_{it},\ \varepsilon_{is}) =\begin{cases} \sigma_\alpha^2 &\text{if } t \neq s \\ \sigma_\alpha^2 + \sigma_\varepsilon &\text{if } t=s \end{cases}\)
因此不知足古典假定,存在异方差与自相关问题。
原假设:混合回归模型
备择假设:其余模型
以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
原假设:\(u_1=u_2=...=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的\(RSS_r\)
备择假设:\(u_1,u_2,...,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的\(RSS_u\)
F统计量构造:
\(F=\cfrac{(RSS_r-RSS_u)/[(NT-k-1)-(NT-k-N)]}{RSS_u/(NT-k-N)} \thicksim F(N-1,NT-k-N)\)
项目 | 含义 |
---|---|
\(RSS_r\) | 有约束模型的残差平方和(混合模型,有约束) |
\(RSS_u\) | 无约束模型的残差平方和(变截距模型) |
\(k\) | 解释变量个数 |
原假设:混合回归模型
备择假设:其余模型
以个体固定效应模型为例:\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
原假设:\(u_1=u_2=...=u_N\) (存在约束,截距不会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_r)\)
备择假设:\(u_1,u_2,...,u_N不全相等\) (无约束,截距会变)
\(Y_{it}=u_i+X_{it}'\beta+ \varepsilon_{it}\)
计算回归的最大似然函数值的对数\(ln(L_u)\)
LR统计量构造:
\(LR=-2(lnL_r-lnL_u)渐近服从\chi^2(约束条件的个数: N-1)\)
原假设:个体随机效应模型(个体效应与回归变量无关)
备择假设:个体固定效应模型(个体效应与回归变量有关)
检验的原理:
利用组内估计(within),不管是随机效应模型的参数估计值仍是固定效应模型的参数估计值,估计参数值都是一致的
利用广义最小二乘法,对随机效应模型的参数估计值是一致的,对于随机效应模型的参数估计值是不一致的
真实模型 | 组内估计\(\hat\beta_w\) | 广义最小二乘法\(\tilde{\beta_{re}}\) |
---|---|---|
\(随机效应模型\) | 一致估计量 | 非一致估计量 |
\(固定效应模型\) | 一致估计量 | 一致估计量 |