应用统计学与R语言实现学习笔记（八）——方差分析

时间 2019-11-13

标签应用统计学语言实现学习笔记方差分析繁體版

原文原文链接

Chapter 8 ANOVA

本篇是第八章，内容是方差分析。前一段考试，汇报，做业。忙不过来，停更了一段时间，如今从新开始更这一部份内容。方差分析是不少实验的基础以及很重要的分析手段，这一章内容相比较而言比较多。面试

1.方差分析的引论

方差分析其实对咱们来讲并不陌生，由于大学搞生态的那群同窗，实验中无数次出现了单方差因素分析的方法。那么方差分析到底是什么呢？从引论来讲，咱们举个跟地学领域相关的例子。不一样地貌对土壤有机质是否有影响？简单地说方差分析实质适合分析的是一系列数值型数据存在某个属性（也能够是某些），而后这个属性能够按照必定的规则分红几个类别（或者叫水平），咱们想了解的就是，不一样类别或者不一样水平的这个数值是否存在显著性差别。简单的理解，它是处理分类型数据的。这里须要跟上一章提到的拟合优度检验、后面讲到的回归分析作些区别，拟合优度检验一般是分析两个分类变量的关系，回归分析则分析的是一个数值型变量（或多个数值型变量）对一个数值型变量的影响（或者说两者的关系）。而方差分析则是分析一个分类变量（或多个分类变量）对于一个数值变量的影响（或者说两者的关系）。这里给出一些定义和术语（不喜爱数学的同窗能够跳过，但请记住我上面的内容）： 方差分析(Analysis of Variance，ANOVA) 研究分类型自变量对数值型因变量的影响编程

一个或多个分类型自变量两个或多个 (k 个) 处理或分类

一个数值型因变量

经过检验多个整体均值是否相等来判断是否有显著影响数据结构

经过分析数据的偏差判断各整体均值是否相等

有单因子方差分析和双因子方差分析dom

单因子方差分析：涉及一个分类型自变量

双因子方差分析：涉及两个分类型自变量

方差分析 vs 假设检验（1）假设检验：一次只能研究两个样本函数

须要比较的次数随因子的数量增多而增多；

第一类错误发生的可能性增大。

（2）方差分析：同时分析多个样本设计

提升检验效率；

将全部信息结合在一块儿，增长了分析的可靠性。

1.1 方差分析的部分概念：

因子或因素 (factor)——所要检验的对象，要分析行业对投诉次数是否有影响，行业是要检验的因子或因素。

水平或处理(treatment):因子的不一样表现,零售业、旅游业、航空公司、家电制造业就是因子的处理。

观察值：在每一个因子处理下获得的样本数据，每一个行业被投诉的次数就是观察值。

试验：涉及一个因子多水平，可称为单因子多处理的试验。

整体：因子的每个处理看做是一个整体。

样本数据：观察值能够看做是从着多个整体中抽取的样本数据

也就是说分类变量是因子或因素，而分的类别就能够称为水平或处理，观察值则是数值型变量。试验就是就是分类的过程，整体其实就是水平，样本数据就是观测值。接下来说讲方差分析的基本思想和原理。code

1.2 方差分析的基本思想和原理

方差分析的基本思想和原理基于两类偏差。也就是随机偏差和系统偏差。对象

随机偏差——因子的同一处理(整体)下，样本各观察值之间的差别，这种差别能够当作是随机因素的影响，称为随机偏差。

系统偏差——因子的不一样处理(不一样整体)下，各观察值之间的差别，这种差别多是因为抽样的随机性所形成的，也多是因为行业自己所形成的，后者所造成的偏差是由系统性因素形成的，称为系统偏差。

因此方差分析的实质是——比较两类偏差，以检验均值是否相等；比较的基础是方差比；若是系统（处理）偏差明显地不一样于随机偏差，则均值就是不相等的；反之，均值就是相等的。这里数据的偏差用平方和(sum of squares)表示。事件

组内平方和(within groups)——因子的同一处理(同一个整体)下样本数据的平方和。组内平方和只包含随机偏差。

组间平方和(between groups)——因子的不一样处理(不一样整体)下各样本之间的平方和。组间平方和既包括随机偏差，也包括系统偏差。

因此若原假设成立，组间平方和与组内平方和通过平均后的数值就应该很接近，它们的比值就会接近1。图片

若原假设不成立，组间平方和平均后的数值就会大于组内平方和平均后的数值，它们之间的比值就会大于1。

当这个比值大到某种程度时，就能够说不一样处理之间存在着显著差别，也就是自变量对因变量有影响。

1.3 方差分析的基本假定

（1）每一个整体都应服从正态分布：

对于因子的每个处理，其观察值是来自服从正态分布整体的简单随机样本。

（2）各个整体的方差必须相同：

各组观察数据是从具备相同方差的整体中抽取的。

（3）观察值是独立的。（4）在上述假定条件下，判断行业对投诉次数是否有显著影响，实际上也就是检验具备同方差的四个正态整体的均值是否相等。（5）若是四个整体的均值相等，能够指望四个样本的均值也会很接近：

四个样本的均值越接近，推断四个整体均值相等的证据也就越充分；

样本均值越不一样，推断整体均值不一样的证据就越充分。

这里要注意的是，每每不少人作统计的时候每每不考虑前提和假设，这是一个错误。经典统计学中不少模型都有严密的数学推导和前提假设，就笔者从事的地学领域里其实有不少现象不是太遵循经典统计学的前提，由此也衍生出了空间统计学理论，因此在作统计研究时须要考量本身数据的特征，了解统计学与模型的基本前提与假设。

至少有一个整体的均值是不一样的；

样本分别来自均值不一样的多个个正态整体。

2.单因子方差分析（One-way ANOVA)

从这章开始后面的部分基本是典型数据分析，故我会渗透更多的数据分析的一些经验和理念。在这里由于要正式进入方差分析的具体内容里，因此我想谈的一点是我曾经说过的一句话——编程先学数据结构。数据结构的重要性能够参加下面的知乎。

https://www.zhihu.com/question/29587605

固然对于R或是其余数据处理语言来讲，我以为最关键的是你在使用分析数据（调用各类包）时须要了解你所调用的包或者函数处理的是什么样的数据（你要把数据处理成你的函数能够读的形式）。固然这是题外话，仍是回到标题的单因子方差分析。

若是一个试验中，只有一个因子在变，而其它因素保持不变，称此试验为单因子试验（只涉及一个分类型自变量）。那么它的数据结构以下所示：

固然事实上在分析的时候，我的以为R和其余数据所能读取的数据结构或者说组织方式仍是2列的变量（数值型变量与分类变量）。

分析步骤则是统计学的经典三部曲：

提出假设；

构造检验统计量；

统计决策。

假设的提法在前面已经提过了。

构造统计量须要计算（1）处理的均值（2）所有观察值的总均值（3）平方和（4）均方(MS)

（接下来是公式大全，公式恐惧症者请跳过） （1）处理的均值

（2）所有观察值的总均值

（3）平方和 方差分析须要计算三个平方和。

实际上，SST=SSTR+SSE SST反映所有数据总的偏差程度； SSE反映随机偏差的大小； SSTR反映随机偏差和系统偏差的大小。若是原假设成立，则代表没有系统偏差，处理平方和SSTR除以自由度后的均方与偏差平方和SSE和除以自由度后的均方差别就不会太大；若是处理均方显著地大于偏差均方，说明各处理(整体)之间的差别不只有随机偏差，还有系统偏差。判断因子的处理是否对其观察值有影响，实际上就是比较处理均方与偏差均方之间差别的大小。

（4）均方——构建检验统计量 各平方和的大小与观察值的多少有关，为消除观察值多少对平方和大小的影响，须要将其平均，这就是均方，也称为方差。计算方法是用平方和除以相应的自由度，三个平方和对应的自由度分别是： SST 的自由度为n-1，其中n为所有观察值的个数，SSTR的自由度为k-1，其中k为因子处理(整体)的个数，SSE 的自由度为n-k。处理均方：SSTR的均方，记为MSTR，计算公式为:

偏差均方：SSE的均方，记为MSE，计算公式为:

计算检验统计量F：将MSTR和MSE进行对比，即获得所须要的检验统计量F，当$H_0$为真时，两者的比值服从分子自由度为k-一、分母自由度为n-k的F分布，即

最后是统计决策将统计量的值F与给定的显著性水平α的临界值Fα进行比较，做出对原假设H0的决策。

对前面的三部曲作一个进一步的总结：

（1）提出假设；（2）构造检验统计量；均值：所有观察值的总均值、处理的均值。 平方和：总平方和SST，处理平方和SSTR，偏差平方和SSE。均方：处理均方MSTR，偏差均方MSE。 均方比：MSTR/MSE~F分布。（3）统计决策。

在R语言中，方差分析函数较为简单，具体应用后面再说。value为观察值，factor为因素。

a.aov<-aov(value~factor,data=a)
summary(a.aov)

偏差来源（方差来源）	平方和(SS)	自由度(df)	均方(MS)	F
组间（处理）	SSTR	k-1	MSTR=SSTR/(k-1)	MSTR/MSE
组内（偏差）	SSE	n-k	MSE=SSE/(n-k)
总计（合计）	SST	n-1
固然仅仅证实有显著性差别，可能还不能知足咱们的需求，因此须要测度方差分析的关系强度。
关系强度的测量
拒绝原假设代表因子(自变量)与观测值之间有关系，而处理平方和(SSTR)度量了自变量(行业)对因变量
(投诉次数)的影响效应。

当处理平方和比偏差平方和(SSE)大，并且大到必定程度时，就意味着两个变量之间的关系显著，大得越多，代表它们之间的关系就越强。反之，就意味着两个变量之间的关系不显著，小得越多，代表它们之间的关系就越弱。

变量间关系的强度用处理平方和(SSTR)及偏差平方和(SSE)占总平方和(SST)的比例大小来反映。

其平方根R就能够用来测量两个变量之间的关系强度。

3.方差分析中的多重比较

多重比较（multiple comparison procedures）——经过对整体均值之间的配对比较来进一步检验到底哪些均值之间存在差别。

可采用Fisher提出的最小显著差别方法，简写为LSD-least significant difference。LSD方法是对检验两个整体均值是否相等的t检验方法的整体方差估计加以修正（用MSE来代替）而获得的。

方差分析中的多重比较分析步骤

4.双因子方差分析（Two-way ANOVA）

前面介绍完了单因子方差分析，可是当咱们的因子大于一个的时候，咱们又该怎么分析呢？一样抛个样例问题出来。假设如今咱们想了解北京城市人口空间分布是否受不一样环路（一环、二环、三环乃至4、5、六环）或新老城区的显著影响。因此该问题是一个典型的双因子问题，能够拆分为以下的状况：

因子	新城区	老城区
一环	人口	人口
二环	人口	人口
三环	人口	人口

对于该问题咱们能够考虑用单因子方差分析来解决——即经过考虑两个因子间全部的组合来分析是否有显著影响。（二环+新城区，二环+老城区，三环+新城区，……，六环+老城区）经过这样组合来获得最后的单因子水平。可是这样处理的问题是，咱们没法了解究竟是新老城区的因素影响了人口的空间分布，或者是不一样的环路影响了人口的空间分布，亦或是两者共同影响。因此咱们须要新的方法来分析。这就是题目所述的双因子方差分析。

4.1 双因子方差分析的基本假定

（1）每一个整体都服从正态分布（对于因素的每个水平，其观察值是来自正态分布整体的简单随机样本）。（2）各个整体的方差必须相同（对于各组观察数据，是从具备相同方差的整体中抽取的）。（3）观察值是独立的。

双因子方差分析实质是分析两个因素(行因素Row和列因素Column)对试验结果的影响。若是两个因素对试验结果的影响是相互独立的，分别判断行因素和列因素对试验数据的影响，这时的双因素方差分析称为无交互做用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)。若是除了行因素和列因素对试验数据的单独影响外，两个因素的搭配还会对结果产生一种新的影响，这时的双因素方差分析称为有交互做用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )。

4.2 无交互做用双因子方差分析

若是在一项试验中，有两个因子在变，而其他因子保持不变，则称之为双因子试验。

（1）无交互做用双因子方差分析：模型

（2）无交互做用双因子方差分析：假设

（3）计算步骤（公式大全）

均方：

平方和：

计算均方（MS）构造检验统计量: 偏差平方和除以相应的自由度，四个平方和的自由度分别是：总离差平方和SST的自由度为 ab-1； A因素的离差平方和SSA的自由度为 a-1； B因素的离差平方和SSB的自由度为 b-1；随机偏差平方和SSE的自由度为 (a-1)×(b-1)。 A因素的均方，记为MSA，计算公式为：

B因素的均方，记为MSB，计算公式为：

随机偏差项的均方，记为MSE，计算公式为：

计算检验统计量(F) 检验行因素的统计量

检验列因素的统计量

统计决策

偏差来源（方差来源）	平方和	自由度	均方	F
因子A	SSA	a-1	MSA=SSA/(a-1)	MSA/MSE
因子B	SSB	b-1	MSB=SSB/(b-1)	MSB/MSE
偏差	SSE	(a-1)(b-1)	MSE=SSE/(a-1)(b-1))
总计	SST	ab-1

4.3 有交互做用双因子方差分析

除了上面的无交互做用双因子方差分析以外，可能存在的一种状况就是两者同时做用，这就是有交互做用的双因子方差分析。即（$A_i,B_j$）下做了r个试验，所得结果记做且相互独立。 （1）有交互做用双因子方差分析：模型

（2）交互做用双因子方差分析：假设

计算步骤（公式大全）

平方和

计算检验统计量(F)

拒绝域

偏差来源（方差来源）	平方和	自由度	均方	F
因子A	SSA	a-1	MSA=SSA/(a-1)	MSA/MSE
因子B	SSB	b-1	MSB=SSB/(b-1)	MSB/MSE
交互做用	SSAB	(a-1)(b-1)	MSB=SSAB/(a-1)(b-1)	MSAB/MSE
偏差	SSE	ab(r-1)	MSE=SSE/ab(r-1))
总计	SST	abr-1

5.实验设计初步

谈完了方差分析的各类理论，回顾开头咱们提到的“搞实验的同窗常用单因素方差分析”，因此在实验设计里，方差分析的应用是很是广泛的。因此这里也谈谈实验设计的一些内容（笔者非实验设计人员，因此仅谈谈一些理念）。一个实验必须施加一些处理，来观察这些处理会不会对实验结果或者测量值有影响。不一样的处理是用来比较不一样的整体。而好的实验，这些处理必须是随机的。所谓的随机就是指，每一个样本有同等的机会（等几率事件）接收这些处理。因此对于这个随机化的比喻就是，你必须闭着眼睛选，才能保证你选的水平是随机的。实验相比于观察的优势也在于此，随机化使的两个比较整体尽量类似，一切东西都是同样的除了选择处理的水平，若是实验结果存在差别的话，咱们就能得出结论，这个处理是否会形成实验结果的不一样。实验是咱们设计的，能够控制实验的变量（很熟悉的控制变量法）——咱们能保证咱们比较的两个整体除了处理以外大体是同样的，而观察则没法保证咱们所观察的两个整体仅仅存在某个处理上的差别，其余都是一致的。从这个角度来讲，实验设计的注意要点以下：

（1）因子数量（单因子方差分析，双因子方差分析……）；（2）因子处理的数量。（3）实验设计类型

前两个点你们可能都很清楚了，主要谈谈第三个点。实验设计类型严格来讲包括以下：

（1）彻底因素位级组合（Full factorial design）

彻底随机化设计

随机化区组设计（2）部分因素位级组合（Fractional factorial design）

（1）彻底因素位级组合（Full factorial design） 顾名思义，就是讲全部因子的全部组合考虑一遍，形成的问题就是——实验规模巨大。如下几个要点：

若是有k个因子，对于k个因子的第i个水平来讲，会有ni个水平的观测值：

必须实验每一个可能的因子水平的组合。

必须捕获有关交互的所有信息。

大量的工做。

主要还包括两种类型。

彻底随机化设计(completely randomized design)——“处理” 被随机地指派给试验单元的一种设计，“处理” 是指可控制的因子的各个水平 “试验单元(experiment unit)”是接受“处理”的对象或实体。

随机化区组设计(randomized block design)——先按必定规则将试验单元划分为若干同质组，称为“ 区组(block)”，再将各类处理随机地指派给各个区组,分组后再将每一个品种（处理）随机地指派给每一个区组的设计就是随机化区组设计。若是可能，咱们应选择随机化区组设计。

（2）部分因素位级组合（Fractional factorial design）

仅测量部分因子水平的组合的结果。

必须认真设计来捕获全部可能的交互做用。

相比而言，工做量下降了，不肯定性增大了。

在知道一些因子不存在交互做用的前提下特别有效。

典型的是正交试验设计——利用“正交表”进行科学地安排与分析多因子试验的方法。其主要优势是能在不少试验方案中挑选出表明性强的少数几个试验方案，而且经过这少数试验方案的试验结果的分析，推断出最优方案，同时还能够做进一步的分析，获得比试验结果自己给出的还要多的有关各因子的信息。

正交表的性质（正交性）每列中不一样数字出现的次数是相等的。每一个因子不一样的水平出现的次数相同。表示：在试验安排中，所挑选出来的水平组合是均匀分布的（每一个因子的各水平出现的次数相同）——整齐可比性。对于任意两列，将同一行的两个数字当作有序数对时，每种数对出现的次数是相等的。任意两个因子都全面试验。表示：任意两因子的各类水平的搭配在所选试验中出现的次数相等——均衡分散性。正交表的优势：各因子的各水平的搭配是均衡的。试验点均衡分散在所有试验条件之中，使得它的表明性很强，可以比较全面地反映、分析出全面试验的最优势来。

用正交表安排试验的步骤明确试验目的，肯定试验指标。肯定要考察的（主要）因子和水平——各水平次序最好随机排列（由于正交试验不是全面试验）。选用合适的正交表，安排试验计划：根据因子的水平，选择相应水平的正交表；再根据欲考察因子的个数选定正交表中因子的个数。根据计划进行试验，肯定试验指标。对试验结果进行分析，得出合理的结论。

正交试验结果的分析方法 直观分析法：简单、直观、容易操做，计算量少。 方差分析：理论根据可靠，结果可信度高，计算量比较大。 正交试验的直观分析法 计算各因子各水平的综合平均值，选出各因子的最优水平。对给定因子的每一个水平，其它因子对试验指标的影响是相同的，所以可用综合平均值来比较各指标对试验指标的影响（综合可比性）。计算个因子综合平均值的极差，分清因子的主次（在平均值中最大数与最小数之差，称为极差。极差的大小序列，表示因子的重要性大小）。选定最优组合——选定最优组合的原则：对于重要因子，必定要选最优水平，以期达到较好试验效果；对于不重要因子，因为它们的水平变更对试验结果影响不大，可根据节约、高效、简便易行等实际状况灵活选定其水平。 正交试验的方差分析 假定试验指标服从正态分布基本思想与双因子方差分析方法一致：将总的离差平方和分解成各因子及各交互做用的离差平方和，构造F统计量，对各因子是否对试验指标具备显著影响，做F检验。