小样本OLS回归的框架

1 最小二乘法的历史

无论是学习机器学习、计量经济学、数理统计,不少人接触到的第一个算法就是最小二乘法(least squares method)。算法

这是一个很是古老的方法。早在18世纪早期,在天文学和航海领域就已经出现了最小二乘法的思想。真正意义上第一个正式发表该方法是在1806年的法国科学家Legendre,而数学王子Gauss听说在更早时候就发现了该方法,但直到1809年他在发表计算天体运动轨道时才正式使用,两人也为谁是第一个发现的争论不休。框架

Gauss毕竟是数学王子,1829年,他又首次证实出,在线性无偏估计量的类中,OLS估计具备最小的抽样方差。在他的证实中,假设了线性回归模型中的偏差项是独立且正态分布的,后来,由Markov将假设放宽到只须要偏差项不相关、同方差且指望为0便可。所以,该定理最终被命名为Gauss-Markov定理机器学习

2 小样本OLS回归的框架

作OLS回归是为了什么?简而言之,在假设了数据生成过程\(y=\beta' x+\varepsilon\)并收集到一系列\((x,y)\)的数据以后,咱们能够作的事情有3个,这也是咱们学习OLS回归的路线:学习

  • 获得系数的点估计;
  • 判断数据拟合得如何?
  • 获得系数的区间估计,进行假设检验。

首先,咱们先利用数据获得点估计\(\hat{\beta}\),由此还能够获得它的一系列性质,而后,能够经过计算如\(R^2\)等一系列指标来讲明拟合得如何,最后,在获得区间估计后,能够对预先的有关于系数的假设进行假设检验。ui

2.1 点估计及其性质

在使用OLS回归以后,能够获得spa

\[\hat\beta=(X'X)^{-1}X'y \]

这就是系数的点估计,能够看下它有什么样的性质。orm

首先,它是\(y\)的线性组合,具备线性性,另外,在施加一些假设后,它的条件指望是对系数的无偏估计,即\(\mathbb{E}(\hat\beta|X)=\beta\),而它的方差则由Gauss-Markov定理保证了是最小的,这就是“BLUE”(Best Linear Unbiased Estimator)。数学

2.2 拟合优度

对于拟合优度,基础的指标有中心化或非中心化\(R^2\)io

而对于模型的选择来讲,若是用\(R^2\)做为模型选择的标准,则很明显,加入的自变量越多,\(R^2\)就会越高,所以须要用其余的指标。如AIC(Akaike Information Crierion)、BIC(Bayesian Information Crierion)、调整\(R^2\)\(\bar{R}^2\)等,均可以来选择模型。ast

2.3 区间估计与假设检验

若假设\(\varepsilon|X\sim N(0,\sigma^2 I)\)(其中\(\sigma\)未知),则\(\hat{\beta}\)也相应地服从正态分布,所以能够获得它的区间估计。但获得它的区间估计并非咱们的最终目的,咱们的最终目的是要检验如\(R\beta=r\)(其中\(R\)\(J\times K\)矩阵)这样的假设是否成立。

由统计学知识可知,可构造出这样的二次型

\[\dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)}{\sigma^2}|X \sim \chi^2_J \]

上式虽然能够证实它服从\(\chi^2\)分布,但左侧的\(\sigma^2\)咱们殊不知道,所以咱们没法利用上式构造统计量。

一个解决办法是用\(s^2=\dfrac{1}{N-K}e'e\)估计\(\sigma^2\),能够证实,这样估计是无偏的,即\(\mathbb{E}(s^2|X)=\sigma^2\),且知足

\[\dfrac{(N-K)s^2}{\sigma^2}|X\sim \chi^2_{N-K} \]

\[s^2 \perp \!\!\!\!\!\!\! \perp \hat{\beta} |X \]

所以,咱们能够构造一个\(F\)统计量进行检验:

\[F\equiv \dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)/J}{s^2}\sim F_{J,N-K} \]

这样能够联合检验有关系数的\(J\)个线性假设,只需将假设写成\(R\beta=r\)的形式便可。若只需检验一个假设,即\(J=1\),则因\(F_{1,q}\sim t^2_q\),故统计量可化为\(t\)分布,直接进行\(t\)检验便可。

相关文章
相关标签/搜索