1. 前言
- 本课程由数学系开设,属于统计学范畴的理论知识。
- 本博客仅对课程中的以下内容进行详细介绍,主要记录实用的计算方法,具体理论证实请进一步查阅相关数学书籍。
- 基本概念
- 参数估计(如何根据样本数据获得整体参数信息)
- 假设检验(如何对关于整体的一些假设做出决策)
- 单因素方差分析(分类变量与数值变量的效应关系)
- 一元线性回归分析(数值变量之间的效应关系)
2. 基本概念
2.1 统计量
定义:设\(\left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)为取自整体\(X\)的一个样本,\(T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right)\)为样本的实值连续函数,且\(T\)中不包含任何未知参数,则称\(T\)为一个统计量。算法
- 几个经常使用的重要统计量
- 样本均值:\(\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }\)
- 样本方差:\(S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } = \frac { 1 } { n - 1 } \left( \sum _ { i = 1 } ^ { n } X _ { i } ^ { 2 } - n \overline { X } ^ { 2 } \right)\)
- 样本标准差:\(S = \sqrt { \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } }\)
- 样本\(k\)阶原点矩:\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k } , ( k = 1,2 , \cdots ) \quad M _ { 1 } = \overline { X }\)
- 样本\(k\)阶中心矩:$M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k } , ( k = 2,3 , \cdots ) \quad M _ { 2 } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 } $
2.2 几个重要的分布
2.2.1 \(\Gamma\)分布族
- Gamma函数
\[\Gamma ( \alpha ) = \int _ { 0 } ^ { + \infty } x ^ { \alpha - 1 } e ^ { - x } d x\]
- \(\Gamma ( \alpha + 1 ) = \alpha \Gamma ( \alpha )\)
- \(\Gamma ( n + 1 ) = n \Gamma ( n ) = n !\),\(n\)为天然数
- \(\Gamma\)分布
\[X \sim f ( x ; \alpha , \beta ) = \left\{ \begin{array} { c c } { \frac { \beta ^ { \alpha } } { \Gamma ( \alpha ) } x ^ { \alpha - 1 } e ^ { - \beta x } , } & { x > 0 } \\ { 0 , } & { x \leq 0 } \end{array} \right.\]
- 记为\(X \sim \Gamma ( \alpha , \beta )\),\(E X = \frac { \alpha } { \beta } , D X = \frac { \alpha } { \beta ^ { 2 } }\)
- \(\Gamma\)分布的两个重要子族
- 指数分布族
- 令\(\alpha = 1\),即\(X \sim \Gamma ( 1 , \beta )\)等价于\(X \sim E ( \beta )\)
- 卡方分布族
- 令\(\alpha = \frac { n } { 2 } , \beta = \frac { 1 } { 2 }\),即\(X \sim \Gamma \left( \frac { n } { 2 } , \frac { 1 } { 2 } \right)\)等价于\(\chi ^ { 2 } \sim \chi ^ { 2 } ( n )\),服从自由度为\(n\)的卡方分布。
- 卡方分布
- 定义:\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)独立,\(X _ { i } \sim N ( 0,1 ) , i = 1,2 , \cdots , n\),则\(\chi ^ { 2 } = \sum ^ { n } X _ { i } ^ { 2 } \sim \chi ^ { 2 } ( n )\),即\(n\)个独立的标准正态分布的平方和,卡方分布的自由度也为\(n\)。
- 卡方分布的密度函数不是轴对称的。
- \(E \chi ^ { 2 } = n , \quad D \chi ^ { 2 } = 2 n\)
- 线性可加性:\(\chi _ { 1 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } \right) , \quad \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 2 } \right)\)且相互独立,则\(\chi _ { 1 } ^ { 2 } + \chi _ { 2 } ^ { 2 } \sim \chi ^ { 2 } \left( n _ { 1 } + n _ { 2 } \right)\)。
2.2.2 \(\beta\)分布族
- Beta函数,记为\(B(a,b)\)。
- \(B ( a , b ) = \frac { \Gamma ( a ) \Gamma ( b ) } { \Gamma ( a + b ) }\)
- \(B ( a , b ) = B ( b , a )\)
- X服从\(\beta\)分布,记\(X \sim B e ( a , b )\),\(E X = \frac { a } { a + b } , D X = \frac { a b } { ( a + b ) ^ { 2 } ( a + b + 1 ) }\)。
2.2.3 \(t\)分布族
- \(X,Y\)独立,\(X \sim N ( 0,1 ) , Y \sim \chi ^ { 2 } ( n )\),则\(T = \frac { X } { \sqrt { Y / n } } \sim t ( n )\)。
- \(E T = 0 ( n > 1 )\),密度函数曲线关于\(x\)轴对称。\(D T = \frac { n } { n - 2 } ( n > 2 )\)。
2.2.4 \(F\)分布族
- \(X,Y\)独立,\(X \sim \chi ^ { 2 } ( m ) , Y \sim \chi ^ { 2 } ( n )\),则\(F = \frac { X / m } { Y / n } \sim F ( m , n )\)。
- \(F \sim F ( m , n )\),则\(\frac { 1 } { F } \sim F ( n , m )\)。
- \(F _ { \alpha } ( m , n ) = \frac { 1 } { F _ { 1 - \alpha } ( n , m ) }\)
2.3 正态整体的抽样分布
- 设整体\(X \sim N \left( \mu , \sigma ^ { 2 } \right)\),\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)为整体\(X\)的样本,\(\overline { X } , S ^ { 2 }\)分别为样本均值和样本方差。
\[\overline { X } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i }\]
\[S ^ { 2 } = \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { 2 }\]
- 有以下性质:
- \(\overline { X } \sim N \left( \mu , \frac { \sigma ^ { 2 } } { n } \right)\),或\(\frac { \overline { X } - \mu } { \sigma / \sqrt { n } } \sim N ( 0,1 )\)
- \(\frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 )\)
- \(\frac { \overline { X } - \mu } { S / \sqrt { n } } \sim t ( n - 1 )\)
3. 参数估计
- 统计分析的基本任务是从样本出发推断整体分布或整体的某些数字特征,咱们把这个过程称为统计推断。统计推断可分为两大类,一类是参数估计,另外一类是假设检验。参数估计又分为两个子问题:点估计和区间估计。
3.1 点估计
- 根据样本\(X _ { 1 } , X _ { 2 } , \cdots , X _ { n }\)构造一个统计量\(\hat { \theta } = \hat { \theta } \left( X _ { 1 } , X _ { 2 } , \cdots , X _ { n } \right)\)来估计\(\theta\)。
- 点估计的方法有不少,最多见的有矩估计法、最大似然估计法、顺序统计量法和最小二乘法等。这里只介绍矩估计法和最大似然估计法。
3.1.1 矩估计法
- 矩估计法的原理是用样本的\(k\)阶矩代替整体的\(k\)阶矩。用\(M _ { k } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } ^ { k }\)代替\(\mu _ { k } = E \left( X ^ { k } \right)\),用\(M _ { k } ^ { * } = \frac { 1 } { n } \sum _ { i = 1 } ^ { n } \left( X _ { i } - \overline { X } \right) ^ { k }\)代替\(\mu _ { k } ^ { * } = E ( X - E ( X ) ) ^ { k }\)。
- 实际计算的时候,每每是用样本均值代替整体均值,用样本2阶中心矩阵代替整体方差。
3.1.2 最大似然估计法
- 计算过程以下:
- 写出似然函数\(L = L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
- 取对数\(\ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)=\sum _ { i = 1 } ^ { n } \ln f \left( x _ { i } , \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
- 求max,\(\ln L \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } , \cdots , \hat { \theta } _ { m } \right) = \max _ { \theta _ { 1 } , \cdots , \theta _ { m } } \ln L \left( \theta _ { 1 } , \theta _ { 2 } , \cdots , \theta _ { m } \right)\)
- 通常求max都是利用导数等于0,计算驻点获得。
3.2 区间估计
- 点估计对估计的精度和可靠度bing没有作明确的回答,例如用样本均值估计整体均值,有多大的偏差和以多大的可靠度使指望偏差不超过某一限度等问题窦惟讲述。
- 区间估计对真值可能的范围加以估计,并要求有足够的置信度确认这种估计。
3.2.1 构造置信区间的方法
- 置信区间的定义
- 对未知参数$ \theta $,若是两个统计量
\[ \hat { \theta } _ { 1 } = \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } ,\cdots , x _ { n } \right) \]
\[ \hat { \theta } _ { 2 } = \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \]
- 对给定的 $ \alpha ( 0 < \alpha < 1 ) $ 有
\[ P \left( \theta _ { 1 } < \theta < \theta _ { 2 } \right) = 1 - \alpha \]
- 则称 \((\theta_1, \theta_2)\) 为参数 \(\theta\) 的置信度为\(1-\alpha\)的置信区间。
- 通常采用枢轴量法构造置信区间,步骤以下:
构造一个含有未知参数\(\theta\),而不含有其余未知参数的随机变量\[ T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ;\theta \right) \]使其分布为已知且与\(\theta\)无关,随机变量T也称为枢轴量。函数
对给定的\(\alpha\),根据\(T\)的分布找出两个临界值\(c\)与\(d\),使得
\[ TP \left( c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d \right) = 1 - \alpha \]spa
- 将不等式\[ c < T \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } ; \theta \right) < d \] 转化为等价形式$ \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) $。
则有\[ P \left( \hat { \theta } _ { 1 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) < \theta < \hat { \theta } _ { 2 } \left( x _ { 1 } , x _ { 2 } , \cdots , x _ { n } \right) \right) = 1 - \alpha \],因而\[ \left( \hat { \theta } _ { 1 } , \hat { \theta } _ { 2 } \right) \]为\(\theta\)的置信度为$ 1 - \alpha $的置信区间。文档
3.2.2 单个正态整体参数的区间估计
设\(x_{ 1 } , x_{2} , ...,x_{n}\)为取自正态整体\(N(\mu , \sigma^{ 2 } )\)的样本,\(\overline { x } , s^{2}\)分别表示样本均值和样本方差。博客
- 指望\(\mu\)的区间估计
- \(\sigma^2\)已知,求\(\mu\)的置信区间
\[ u = \frac { \overline { x } - \mu } { \sigma } \sqrt { n } \sim N ( 0,1 ) \]
- $ - u _ { \frac { \alpha } { 2 } } < u < u _ { \frac { \alpha } { 2 } } $
- $ \sigma ^ { 2 } \(未知,求\) \mu $的置信区间
\[ t = \frac { \overline { x } - \mu } { s } \sqrt { n } \sim t ( n - 1 ) \]
- $ - t _ { \frac { \alpha } { 2 } } ( n - 1 ) < t < t _ { \frac { \alpha } { 2 } } ( n - 1 ) $
- 方差$ \sigma ^ { 2 } $的区间估计
- \(\mu\)已知,求$ \sigma ^ { 2 } $的置信区间
\[ \chi ^ { 2 } = \sum _ { i = 1 } ^ { n } \frac { \left( x _ { t } - \mu \right) ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n ) \]
- $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n ) ) $
- \(\mu\)未知,求$ \sigma ^ { 2 } $的置信区间
\[ \chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma ^ { 2 } } \sim \chi ^ { 2 } ( n - 1 ) \]
- $ \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) < \chi ^ { 2 } < \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) $
- 我的总结
- 求均值时,用的是N和t。
- 求方差时,都是采用卡方。
3.2.3 多个正态整体参数的区间估计
设整体\(X\sim N \left(\mu_1 , \sigma_{1}^{2} \right)\),整体\(Y\sim N \left(\mu_{2} , \sigma_{2}^{2} \right)\),且相互独立,样本容量分别为\(n_1\),\(n_2\)。数学
- 指望差$ \mu_{ 1 } - \mu_{ 2 } $的区间估计
- $\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 } $已知
\[ U = \frac { \overline { x } - \overline { y } - \left( \mu_{ 1 } - \mu_{ 2 } \right) } { \sqrt { \sigma_{ 1 } ^ { 2 } / n_{ 1 } + \sigma_{ 2 } ^ { 2 } / n_{ 2 } } } \sim N ( 0,1 ) \]
- $ \sigma_{ 1 } ^ { 2 } , \sigma_{ 2 }^{ 2 } $未知,样本容量充分大
- \(\sigma_{ 1 }^{ 2 } , \sigma_{ 2 }^{ 2 }\)未知,但$ \sigma_{ 1 }^{ 2 } = \sigma_{ 2 }^{ 2 } = \sigma^{ 2 } $
\[ t = \frac { \overline { x } - \overline { y } - \left( \mu _ { 1 } - \mu _ { 2 } \right) } { S _ { w } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } } \sim t \left( n _ { 1 } + n _ { 2 } - 2 \right) \]
- 其中$ S _ { w } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } } $
- $ - t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) < t < t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) $
3.3 贝叶斯估计
- 前面讨论的参数估计的方法只是利用了整体信息,即整体服从何种分布的信息,以及样本信息,即样本数据提供的有关未知参数的信息。然而在实际问题中,可能在抽样以前就有了关于未知参数的信息,这种信息也被称做先验信息。贝叶斯估计不光考虑了整体信息与样本信息,也考虑了先验信息。
- 样本的联合密度函数$ f ( x | \theta ) = \prod _ { i = 1 } ^ { n } f \left( x _ { i } ; \theta \right) $
- 参数\(\theta\)和样本的联合密度函数为$ \pi ( \theta ) f ( x | \theta ) $
- 样本的边缘分布密度$ g ( x ) = \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta $
- 后验分布
\[h ( \theta | x ) = \frac { \pi ( \theta ) f ( x | \theta ) } { \int _ { - \infty } ^ { + \infty } \pi ( \theta ) f ( x | \theta ) \mathrm { d } \theta } = \frac { \pi ( \theta ) f ( x | \theta ) } { g ( x ) } \]
- 最大后验估计\(\hat { \theta } _ { M }\),对后验分布\(h ( \theta | x )\)求导,寻找驻点。
- 指望型估计\(\hat { \theta } _ { E }\),对后验分布\(h ( \theta | x )\)求指望,\(\hat { \theta } _ { E } = E( h ( \theta | x ) )\)
- 最小风险估计\(\hat { \theta } _ { B }\),在平方损失函数\(L ( \theta , d ) = [ \theta - d ( x ) ] ^ { 2 }\)下,\(\hat { \theta } _ { B } = \hat { \theta } _ { E }\)
4. 假设检验
4.1 参数假设检验
4.1.1 单个正态整体参数的假设检验
- 设\(x _ { 1 } , x _ { 2 } , \cdots , x _ { n }\)为取自正态整体\(N \left( \mu , \sigma ^ { 2 } \right)\)的一个容量为\(n\)的样本。
- \(u\)检验
- 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),检验\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),选择统计量
\[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n }\]
- \(H_0\)成立时,他服从\(N ( 0,1 )\)分布,拒绝域\(\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}\)
- 已知\(\sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 }\),检验\(H _ { 0 } : \mu \leq \mu _ { 0 } , \quad H _ { 1 } : \mu > \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } > \mu _ { 0 } \right)\),选择统计量
\[u = \frac { \overline { x } - \mu _ { 0 } } { \sigma _ { 0 } } \sqrt { n }\]
- \(H_0\)成立时,他服从\(N ( 0,1 )\)分布,拒绝域\({u \geq u _ { \alpha }}\)
- \(t\)检验
- 未知\(\sigma ^ { 2 }\),检验\(H _ { 0 } : \mu = \mu _ { 0 } , \quad H _ { 1 } : \mu \neq \mu _ { 0 }\),检验统计量为
\[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n }\]
- \(H_0\)成立时,\(t\)服从\(t ( n - 1 )\)分布,拒绝域为\(\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } ( n - 1 ) \right\}\)
- 未知\(\sigma ^ { 2 }\),检验\(H _ { 0 } : \mu \geq \mu _ { 0 } , \quad H _ { 1 } : \mu < \mu _ { 0 } \left( H _ { 1 } : \mu = \mu _ { 1 } , \mu _ { 1 } < \mu _ { 0 } \right)\),检验统计量为
\[t = \frac { \overline { x } - \mu _ { 0 } } { s } \sqrt { n }\]
- 拒绝域为\(\left\{ t \leq - t _ { \alpha } ( n - 1 ) \right\}\)
- \(\chi ^ { 2 }\)检验
- 未知\(\mu\),检验\(H _ { 0 } : \sigma ^ { 2 } = \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } \neq \sigma _ { 0 } ^ { 2 }\)。检验统计量为
\[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } }\]
- \(H_0\)成立时,他服从\(\chi ^ { 2 } ( n - 1 )\)分布,拒绝域为\(\left\{ \chi ^ { 2 } \leq \chi _ { 1 - \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}\),或\(\left\{ \chi ^ { 2 } \geq \chi _ { \frac { \alpha } { 2 } } ^ { 2 } ( n - 1 ) \right\}\)
- 未知\(\mu\),检验\(H _ { 0 } : \sigma ^ { 2 } \leq \sigma _ { 0 } ^ { 2 } , H _ { 1 } : \sigma ^ { 2 } > \sigma _ { 0 } ^ { 2 }\),检验统计量为
\[\chi ^ { 2 } = \frac { ( n - 1 ) s ^ { 2 } } { \sigma _ { 0 } ^ { 2 } }\]
- 拒绝域为\(\left\{ \chi ^ { 2 } \geq \chi _ { \alpha } ^ { 2 } ( n - 1 ) \right\}\)
4.1.2 两个正态整体参数的假设检验
- \(u\)检验
- \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)已知,检验\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),检验统计量为
\[u = \frac { \overline { x } - \overline { y } } { \sqrt { \frac { \sigma _ { 1 } ^ { 2 } } { n _ { 1 } } + \frac { \sigma _ { 2 } ^ { 2 } } { n _ { 2 } } } }\]
- \(H_0\)成立时,他服从\(N ( 0,1 )\)分布,拒绝域为\(\left\{ | u | \geq u _ { \frac { \alpha } { 2 } } \right\}\)
- \(t\)检验
- \(\sigma _ { 1 } ^ { 2 } , \sigma _ { 2 } ^ { 2 }\)未知,但已知\(\sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 }\),检验\(H _ { 0 } : \mu _ { 1 } = \mu _ { 2 } , H _ { 1 } : \mu _ { 1 } \neq \mu _ { 2 }\),检验统计量为
\[t = \frac { \overline { x } - \overline { y } } { S _ { W } \sqrt { \frac { 1 } { n _ { 1 } } + \frac { 1 } { n _ { 2 } } } }\]
- 其中\(S _ { W } = \sqrt { \frac { \left( n _ { 1 } - 1 \right) s _ { 1 } ^ { 2 } + \left( n _ { 2 } - 1 \right) s _ { 2 } ^ { 2 } } { n _ { 1 } + n _ { 2 } - 2 } }\)。
- \(H_0\)成立时,他服从\(t(n_1+n_2-2)\)分布,拒绝域为\(\left\{ | t | \geq t _ { \frac { \alpha } { 2 } } \left( n _ { 1 } + n _ { 2 } - 2 \right) \right\}\)
- \(F\)检验
- 未知\(\mu _ { 1 } , \mu _ { 2 }\),检验\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } = \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } \neq \sigma _ { 2 } ^ { 2 }\),检验统计量为
\[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } }\]
- \(H_0\)成立时,他服从\(F(n_1-1,n_2-1)\)分布,拒绝域为\(\left\{ F \leq F _ { 1 - \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\),或\(\left\{ F \geq F _ { \frac { \alpha } { 2 } } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\)
- 未知\(\mu _ { 1 } , \mu _ { 2 }\),检验\(H _ { 0 } : \sigma _ { 1 } ^ { 2 } \leq \sigma _ { 2 } ^ { 2 } , H _ { 1 } : \sigma _ { 1 } ^ { 2 } > \sigma _ { 2 } ^ { 2 }\), 检验统计量为
\[F = \frac { s _ { 1 } ^ { 2 } } { s _ { 2 } ^ { 2 } }\]
- \(H_0\)成立时,他服从\(F(n_1-1,n_2-1)\)分布,拒绝域为\(\left\{ F \geq F _ { \alpha } \left( n _ { 1 } - 1 , n _ { 2 } - 1 \right) \right\}\)
4.2 非参数假设检验
- 非参数的假设检验最多见的是独立性假设检验,以及两整体分布比较的假设检验,后者一般用符号检验法、秩和检验法。
- 具体细节查阅相关文档,算法比较简单,不作介绍。
5. 方差分析
- 方差分析在本质上所研究的是变量之间的关系,尤为是研究一个(或多个)分类型自变量与一个数值型因变量之间的关系。
- 从形式上看,方差分析是比较多个整体的均值是否相等,虽然咱们感兴趣的是均值是否相等,但在判断均值之间是否有差别时须要借助于方差,因此称为方差分析。在方差分析中,将影响试验指标的变量称为因素,称因素所处的不一样状态为水平。
- 方差分析就是经过对试验数据进行分析,检验方差相同各正态整体的均值是否相等,以判断各因素对试验指标的影响是否显著。
- 单因素方差分析即影响试验指标的变量因素只有一个。本小节只介绍单因素方差分析。
5.1 单因素方差分析
- 单因素方差分析是固定其余因素只考虑某一因素\(A\)对试验指标的影响。将因素\(A\)之外的条件保持不变,取因素\(A\)的\(r\)个水平\(A _ { 1 } , A _ { 2 } , \cdots , A _ { r }\),对水平\(A_I\)重复作\(n_i\)次试验,可得试验指标的\(n_I\)个数据\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } } , i = 1,2 , \cdots , r\)。
- 用\(\eta _ { i }\)表示水平\(A_i\)的状况下试验指标的数值。用\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)表示以\(\eta _ { i }\)为整体的样本,则\(y _ { i 1 } , y _ { i 2 } , \cdots , y _ { i n _ { i } }\)就是样本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)的观察值。
- 假定上述的\(r\)个整体\(\eta _ { 1 } , \cdots , \eta _ { r }\)是相互独立且方差相等的随机变量,\(\eta _ { i } \sim N \left( a _ { i } , \sigma ^ { 2 } \right) , \quad i = 1,2 , \cdots , r\),其中\(\sigma ^ { 2 }\)未知,\(a _ { i }\)也未知。
- 样本\(\eta _ { i 1 } , \eta _ { i 2 } , \cdots , \eta _ { i n _ { i } }\)是独立同分布的。
- 上述数学符号是一些基础介绍,以后介绍单因素方差分析的计算方法——平方和的分解与检验。
5.2 平方和的分解与检验
- 该方法的任务是解决以下问题:
- 检验假设\(H _ { 0 } : a _ { 1 } = a _ { 2 } = \cdots = a _ { r }\),即均值相等。
- 求\(a _ { i } , \sigma ^ { 2 }\)的点估计与区间估计。
- 该方法称\(S_T\)为总误差平方和,\(S_A\)为组间误差平方和,\(S_e\)为组内误差平方和。
- 总误差平方和分解式为:\(S _ { T } = S _ { e } + S _ { A }\)
- 上述三个变量的经常使用计算公式为:
\[R=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij}^2\]
\[G=\sum_{i=1}^{r}\sum_{j=1}^{n_i} \eta_{ij}\]
\[P=\sum_{i=1}^{r}\frac{({\sum_{j=1}^{n_i}\eta_{ij}})^2}{n_I}\]
\[S_T=R - \frac{G^2}{n}\]
\[S_A=P - \frac{G^2}{n}\]
\[S_e=R - P\]
- \(R\)为全部数据的平方和
- \(P\)为全部数据的和
- \(n\)为全部数据的数量
- 检验统计量为
\[F = \frac { S _ { A } / \sigma ^ { 2 } ( r - 1 ) } { S _ { e } / \sigma ^ { 2 } ( n - r ) } = \frac { ( n - r ) S _ { A } } { ( r - 1 ) S _ { e } } \sim F ( r - 1 , n - r )\]
- 拒绝域为\(\left\{ F > F _ { \alpha } ( r - 1 , n - r ) \right\}\)
6. 回归分析
- 实际问题中变量之间每每都是有相互联系或者相互制约的,变量之间的关系大体分为两类。一类是肯定性关系,也就是函数关系。另外一类是相关关系,变量之间有密切的关系,可是不能用一个肯定的函数关系来表达。
- 回归分析是研究数值型自变量与数值型因变量之间的相关关系的一种统计分析方法。
- 本小节只介绍一元线性回归模型
6.1 一元线性回归模型
- 线性回归的回归参数一般由最小二乘估计来肯定。
- 记
\[L _ { x x } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) ^ { 2 }\]
\[L _ { y y } = \sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 }\]
\[L _ { x y } = \sum _ { i = 1 } ^ { n } \left( x _ { i } - \overline { x } \right) \left( y _ { i } - \overline { y } \right)\]
- 则\(\beta _ { 0 } , \beta _ { 1 }\)的最小二乘估计简写为
\[\left\{ \begin{array} { l } { \beta _ { 0 } = \overline { y } - \beta _ { 1 } \overline { x } } \\ { \beta _ { 1 } = L _ { \mathrm { xy} } / L _ { \mathrm { xx } } } \end{array} \right.\]
- 接下来介绍一些经常使用符号
- 总平方和\(S_T\)
\[S_T=\sum _ { i = 1 } ^ { n } \left( y _ { i } - \overline { y } \right) ^ { 2 } = L_{yy}\]
- 回归平方和\(S_R\)
\[S_R=\sum _ { i = 1 } ^ { n } \left( \hat { y } _ { i } - \overline { y } \right) ^ { 2 } = \frac {L_{xy} L_{xy}} {L_{xx}} = \hat { \beta } _ { 1 } L_{xy}\]
- 残差平方和\(S_e\)
\[S_e= \sum _ { i = 1 } ^ { n } \left( y _ { i } - \hat { y } _ { i } \right) ^ { 2 }\]
- 平方和分解式能够简写为\(S _ { T } = S _ { R } + S _ { e }\)
- 一般用最大似然估计法获得\(\sigma ^ { 2 }\)的估计值为
\[\hat { \sigma } ^ { 2 } = \frac { 1 } { n - 2 } \sum _ { i = 1 } ^ { n } S_e\]
- \(E \left( \hat { \beta } _ { 1 } \right)=\beta _ { 1 }\)
- \(D \left( \hat { \beta } _ { 1 } \right)= \frac { \sigma ^ { 2 } } {L_{xx}}\)
- 相关系数
\[r=\frac { L _ { xy} } { \sqrt { L _ { xx} L _ { yy} } }\]
- 决定系数
\[R=r^2=\frac {S_R} {S_T}\]