t检验是统计学中最经常使用的检验之一。双样本t检验容许咱们基于来自两组中的每一组的样原本测试两组的整体平均值相等的零假设。测试
这在实践中意味着什么?若是咱们的样本量不是过小,若是咱们的数据看起来违反了正常假设,咱们就不该过度担忧。此外,出于一样的缘由,即便X不正常(一样,当样本量足够大时),组均值差别的95%置信区间也将具备正确的覆盖率。固然,对于小样本或高度偏斜的分布,上述渐近结果可能不会给出很是好的近似,所以类型1偏差率可能偏离标称的5%水平。spa
如今让咱们用R来检验样本均值分布(在重复样本中)收敛到正态分布的速度。咱们将模拟来自对数正态分布的数据 - 即log(X)遵循正态分布。咱们能够经过从正态分布中取幂随机抽取来今后分布中生成随机样本。首先,咱们将绘制一个大的(n = 100000)样本并绘制其分布以查看它的外观: 咱们能够看到它的分布是高度偏斜的。从表面上看,咱们会担忧对这些数据使用t检验,假设X是正态分布的。blog
为了看看样本的样本分布,咱们将选择样本大小为n,并从对数正态分布中重复绘制大小为n的样本,计算样本均值,而后绘制这些样本均值的分布。如下显示n = 3的样本平均值的直方图(来自10,000个重复样本):rem
样本均值的分布,n = 3get
这里的采样分布是倾斜的。如此小的样本量,若是其中一个样本从分布的尾部具备高值,则这将给出与真实均值相差很远的样本均值。若是咱们重复,但如今n = 10: 它如今看起来更正常,但它仍然是偏斜的 - 样本均值有时很大。请注意,x轴范围如今更小 - 样本均值的可变性如今小于n = 3。最后,咱们尝试n = 100:it
如今样本均值的分布(来自人口的重复样本)看起来很是正常。当n很大时,即便咱们的一个观测结果可能位于分布的尾部,分布中心附近的全部其余观测值也会保持平均值。这代表对于这个特定的X分布,t检验应该是正确的,n = 100 。检查这种状况的更直接的方法是进行模拟研究,其中咱们凭经验估计t检验的1型错误率,在给定的n选择下应用于该分布。class
固然,若是X不是正态分布的,即便假设正态性的t检验的类型1错误率接近5%,测试也不会是最佳的。也就是说,将存在零假设的替代测试,其具备检测替代假设的更大功率。方法