一:背景api
这几天从新复习了一下之前经典的假设检验方法。包括以前使用excel来作一些简单的统计分析。.net
假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另外一重要内容,3d
其目的是比较整体参数之间有无差异。假设检验的实质是判断观察到的“差异”是由抽样偏差引发仍是整体上的不一样,excel
目的是评价两种不一样处理引发效应不一样的证据有多强,这种证据的强度用几率P来度量和表示。对象
P值就是当原假设为真时所获得的样本观察结果或更极端结果出现的几率。blog
二:假设检验步骤get
假设任意给定两组数据,好比从两个样本抽样的一个特征。产品
想知道这两个样本的分布是否不一样,有没有差异。class
问题一般有两种解法,一个是参数检验,一个非参数检验。test
若是数据的分布比较符合某些正态分布或经典三大分布(t分布,f分布,卡方分布)的条件,采用第一种办法效果比较好,分为如下几个步骤
1.创建假设
2.求抽样分布
3.选择显著性水平和否认域
4.计算检验统计量
5.断定
正态分布,用以构建Z统计量,主要用来做为如下几种情形的检验分布,
1:(单个整体参数)当整体方差已知,大样本的状况下,判断样本均值(比例)和整体均值(比例)是否有差别。例如已知一个城市2018年人均收入是1万元,2019年随机抽样了100我的,计算均值为10100元,问两年的人均收入是否有显著差别。
2:(单个整体参数)当整体方差已知,小样本的状况下,判断样本均值(比例)和整体均值(比例)是否有差别。
3:(两个整体参数)当整体方差已知或未知,大样本的状况下,好比随机抽100名18岁高中生,比较男女的身高是否有差别
T分布,用以构建t统计量,又称厚尾分布
1:(单个整体参数)当整体方差未知,小样本的状况下,判断样本均值(比例)和整体均值(比例)是否有差别。
2:(两个整体参数)当整体方差未知,小样本的状况下,好比随机抽20名18岁高中生,比较男女的身高是否有差别
卡方分布,用以构建x2统计量,
1:(单个整体参数)比较和整体方差是否存在差别,好比生产一种零件,要求偏差不超过1mm,随机抽取了20个,分别进行测定,求卡方值作检验
2:拟合优度检验,比较两个整体比例是否有显著差别,具体参考问题3
3:独立性检验,两个分类变量之间是否存在联系,好比产品的质量与产地是否有关
F分布,用以构建f统计量
1:(两个整体参数)比较两整体的方差是否相等,方差齐,能够经过两个方差之比等于1来进行,
若是不知足正态,独立,方差齐等前提,也不知道分布形式,能够采用非参检验。
固然知足参数检验条件的两组数据也可使用非参检验,可是效果不如参数检验好。
三:参数检验方法示例
1:T检验
经过两个样本之差的分布去推断,两个样本数据应知足正态分布条件,方差齐,还要相互独立,之因此叫t检验,是由于构建的统计量是t统计量,t统计量服从n1+n2-2个自由度的t分布,
小样本的状况下(n<=30),比较两个样本的均值是否显著差别。
原假设是没有差别,P<0.05,拒绝原假设,说明有差别。若是经过Levene F方法检验方差不齐,则须要用校订的t检验,或者用非参数方法处理。
excel (ttest),spss,R (t.test())均可以分析。
前提要先作正态性检验,但这一个问题能够有不少方法来处理,一个是画直方图,pp,qq,只是定性分析,还有其余的方法,像R里的shapiro.test,ks检验用的比较多。
补充说明:https://www.jianshu.com/p/c2e8bb32eb8d
Levene's Test 检验,用于检验两组及两组以上独立样本的方差是否相等。要求样本为随机样本且相互独立。
Levene检验 与Bartlette检验(巴特莱多)的区别:
1)对于正态分布的样本,Bartlette检验极其灵敏,可是对于非正态分布的样本,检验很是不许确;
2)Levene检验是一种更为稳健的检验方法,既可用于正态分布的样本,也可用于非正态分布的样本,同时对比较的各组样本量能够相等或不等;
3)二者的检验原理不一样,Bartlette检验是对原始数据检验其方差是否齐性,而Levene检验是检验组间残差是否齐性,并且通常认为要求残差的方差齐性,
因此通常统计软件使用Levene检验(同时,根据由原理也能够解释1和2,Levene检验只针对残差,因此与分布无关,而Bartlette检验针对原始数据,因此符合正态分布与非正态分布差异较大);
所以,Levene检验被普遍地公认为是标准的方差齐性检验的方法。
2:方差分析(F 检验)
t检验是用来比较样本均值的,f检验是用来比叫方差的,又分单因素,双因素,多因素,就是对一种目标,有一个变量或多个变量影响这该目标,好比亩产,有品种,肥力,灌溉等因素,哪一个因素是主要影响因素呢?
使用方差分析须要知足(正态,方差齐)
经过方差分析,找到总体方差的主要来源,加入有3个因素,通常软件会自动处理单因素,双因素联合效应,三因素联合效应。
原假设是组间方差(同因素不一样处理水平下)没差别,若是P<0.05,拒绝原假设,说明该因素的方差占了大部分总体方差来源,是显著影响因素。
若是一个因素种,有多个处理水平,也就是多重比较时,spss里使用tukey和lsd这两种比较检验方法较为经常使用,若是方差不齐,有Tamhane’s T2法选项处理。
3:卡方检验
用于列联表分析,当变量是一个分类变量时,统计的是频数,好比赞同的人数,一级,二级这种。
卡方检验能够用于正态性检验,独立性检验(好比说牛奶的质量是否与产地有关), 比较分类变量比例之间是否有显著差别(好比两个城市之间不一样社会阶层的收入水平占比是否有差别)。
自由度是(R-1)*(C-1)
四:非参数检验方法示例
若是将数据取对数,或者开根号等处理后仍然不知足正态分布的前提条件,能够采用非参数的方法分析,能够参考这个link:https://blog.csdn.net/m0_37228052/article/details/89639426
非参数检验主要不是用变量的值,二是用秩做为分析对象。
spss只要勾上四个选项,能够同时分析出结果。
1: U检验
要知足四个假设,1.数据中有一个因变量,且因变量为连续变量或等级变量。
例如:连续变量——智力得分、考试分数、体重;等级变量——满意程度(包括很是不满意、不满意、满意、很是满意)。
2.数据中有一个自变量,且自变量为二分类的独立变量。例如:性别分组——男性组、女性组;生活习惯——吸烟组、非吸烟组。
3.观察值之间相互独立,即自变量的两个分组中的研究个体不能相关。
研究数据不符合此项条件,例如测量同一组患者治疗前与治疗后的血生化指标,这样数据属于配对样本数据,应选用Wilcoxon符号秩和检验。
例如:对比两个班级的学生的考试分数;对比患者与健康者的血生化指标。
4.自变量中两组样本的分布一致。
2:KS检验:不只能够检验单个整体是否服从某一理论分布,还能检验两个整体分布是否存在显著差别。
3:Moses极端反应检验
4:W检验