《白话统计&&白话统计学》

1、术语

1.1 整体和样本,参数和统计量

  • 整体(population):
  • 样本:整体的子集
  • 参数(parameter):整体数据计算的值,适用于整体
  • 统计量(statistic):样本数据计算的值
  • 描述统计(descriptive):描述收集数据样本或整体的信息
  • 推断统计(inferential):假定收集的样本可以表明更大的整体,利用样本数据获得整体特征的一些结论。
    注意:整体可大可小,要看你想研究什么对象;样本不必定能表明整体,假如不能表明整体,此时获得的样本统计量只能用于描述统计,而不能推断整体参数。

1.2抽样

  • 随机抽样(random sampling):每个样本被选中的几率相等。
  • 典型抽样(representative sampling):人为的有意选取样本某些特征和整体相匹配。如整体中男女比例7:3,样本选取是男女比例也是7:3。
  • 方便抽样(convenience sampling):根据地理位置、接触难度、参与意愿来选择样本。

1.3变量类型和测量尺度

(1)变量类型html

  • 定量/连续(continuous)变量:身高
  • 定性/分类(categorical)变量:男女(二值变量dichotomous variable)
    (2)测量尺度
  • 定类尺度:又叫分类数据,特色是不可排序不可运算。好比,国籍,不能说中国大于美国。只能对面人口、面积。又好比男女
  • 定序尺度:特色是能够排序但不能够运算。好比,健康情况(优良中差),优比良好,可是‘’优‘’减不了‘’良‘’
  • 定矩尺度:0点有意义,好比年份1987,零点能够是公元0年,耶稣出生那年。固然0点能够随意定义,假如你统治了时间,你能够把0点定为你出生那年,只要有意义便可。
  • 定比尺度:0点无心义,好比体重56公斤,0公斤没有意义。

后两种数据统称为数值数据。能够排序能够运算。python

1.4研究设计

  • 实验组设计:将样本分红不一样组,而后对感兴趣的一个或多个变量进行组间比较。如:AB test
  • 相关性研究设计:收集若干变量数据,进行统计分析以肯定不一样变量之间彼此相关的强度。

实验性设计变量因素可控、可分离,但也很难排除全部的干扰因素。相关性研究设计易于实施,但没法施加精准控制。相关性研究只能提供变量间是否相关的信息(统计理论信息),不能得出实际的因果关系结论(实际业务信息)。算法

2、分布的集中趋势和分散变异

2.1集中趋势

  集中趋势:又称“数据的中心位置”、“集中量数”,一组数据的表明值。是用来描述舆论现象的重要统计分析指标。
(1) 均值(算术平均数)mean
  描述平均水平。理论计算方式:
api

  • Outliers(异常值、极端值):数据集中会包含一个或多个数值异常大或异常小的值。异常值检查方法——(四分位计算法)。
  • 数据偏斜(skewed data)现象:when the outliers “pull” the data to the left or right。
  • Mean最大的缺陷——受outliers影响较大。因此mean最适用的状况为:
    The data is symmetric(均匀的)
    With the one trend(趋势)均值回归
    (2)中位数
      定义:将数据按大小顺序(从大到小或是从小到大均可以)排列后处于中间位置的数。
  • 理论计算方式——从小到大排序,分为两种状况:
  1. n=odd number(奇数),median position=(n+1)/2
  2. n=even number(偶数),median positon=n/2 or n/2+1,so median=two median number/2
  • 最适用的状况:the data is skewed by outliers.由于中位数不受outliers影响,只跟序列的位置有关。
    (3)四分位数quartile
      定义:把全部数值由小到大排列并分红四等份,处于三个分割点位置的数值。
  • 下四分位数:Q1,从小到大的顺序排序排在第25%位置的数字。
  • 上四分位数:Q3,在第75%位置的数字
  • 四分位距interquartile range:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
  • Quartile做用——检查异常值tukey test:
    最小值估计=Q1-K * IRQ
    最大值估计=Q3+K * IRQ
    其中,K=1.5(中度异常)/3(极度异常)
  • 理论计算方式:
  1. 方式一,基于n基础
    Q1的位置= (n+1) × 0.25
    Q2的位置= (n+1) × 0.5
    Q3的位置= (n+1) × 0.75
  2. 方式二,基于n-1基础
    Q1的位置=1+(n-1)x 0.25
    Q2的位置=1+(n-1)x 0.5
    Q3的位置=1+(n-1)x 0.75
    若是算出来是小数,取下一个最近的整数。

(4)众数mode——定类数据dom

  • 数据中出现次数最多的数(所占比例最大的数),可能会存在多个众数(多峰),也可能不存在众数。函数

  • 适用的状况:不只适用于数值型数据,对于非数值型数据也一样适用。
    (5)mean、median、mode三者比较

    网站

  • Mean>median:数据向右偏(正偏,尾部趋向高端),右端可能存在极大值(右边有大的数据,拉高平均值)设计

  • Mean<median:数据向左偏(负偏,尾部趋向低端),左端可能存在极小值(左边有小的数据,拉低平均值)3d

  中位数位置不变,均值被拉向尾巴一端。好比最大的数为100时,中位数和均值相等,变成200后(正偏),均值被拉大,中位数不变。orm

(6) 异常值检查方法
异常值检查方法

2.2 离散程度和相关性

  对于离散程度的程度衡量,能够只针对单一变量自身离散程度,如极差、方差、标准差、变异系数等;也能够针对多变量的离散程度之间的相关性,如协方差、相关系数、皮尔森系数。

  • 极差range:max()-min()

  • 四分位差interquartile range:75%-25%(分红四组,包含中间两组数)

  • 离差deviation:点到均值之差。与原单位相同

  • 离差平方和:离差的平方后求和相加。消除正负抵消,相加为0。单位:原单位的平方。平方和基础统计学的重要组成部分。

  • 方差variance:点到均值的距离平方(离差平方)和的平均,单位:原单位的平方。通常不用来描述分布,用来做为计算其余统计量(如方差分析)的一个步骤,而不是单独使用的统计量。

  • 标准差stardard deviation:方差开方,单位:和原单位相同。更喜欢用标准差描述一个分布中取值的平均离散程度。结合均值能够很好描述一个分布的形态。

  • 变异系数(coefficient of variation):

  变异系数CV,又称“离散系数”(英文:coefficient of variation),是几率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。单位:无量纲。

  • 协方差:

  倘若有两个变量X,Y,每一个时刻的“X值与其均值只差”乘以“Y值与其均值之差”获得一个乘积,再对这每时刻的乘积求和并求出均值。
  反映两个变量在变化过程当中,是同向变化仍是反向变化,同向或反向的程度如何:

  1. 你变大,我也变大,说明两变量是同向变化,协方差为正;
  2. 你变大,同时我变小,说明两变量是反向变化,协方差为负;
  3. 协方差数值越大,两变量同向程度也越大,反之亦然。
  • 相关系数:

      用X、Y的协方差除以X的标准差和Y的标准差。相关系数也能够当作协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
      也能够反映两个变量变化时是同向仍是反向,若是同向变化就为正,反向变化就为负;
      因为它是标准化后的协方差,所以更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的类似程度。
  • 皮尔森系数(pearson):

参考网站:
协方差和相关系数史诗级白话介绍:协方差和相关系数

3、分布

3.1 累计函数和几率密度函数

参考网站:累计函数和几率密度函数
①离散型数据
几率函数(几率分布、分布律):离散随机变量X取不一样的值,对应不一样的几率值。
几率分布函数(累计几率函数)F(x):几率函数取值的累加结果。

②连续型数据
几率密度函数(连续型数据几率函数)f(x):连续型数据,某点的几率为0。只能用某点数据密集程度表示几率分布状况。

  左边是F(x)连续型随机变量分布函数画出的图形,右边是f(x)连续型随机变量的几率密度函数画出的图像,它们之间的关系就是,几率密度函数是分布函数的导函数。

3.4 正态分布(Normal Distribution)

(1)正态分布描述现象

  普通分布,描述某些稳定但又受到一些偶然因素影响的现象。

(2)正态分布几率密度函数

(3)正态分布密度函数数学意义

  • f(x)永远大于0,左右对称,当x=μ,即等于均数时,几率密度函数达到最大值;
  • x离均数越远,f(x)值越小,距离无限远时,趋于0;
  • 标准差σ越大,f(x)值越小,分布形状越“矮”,峰度平坦;反之,越’瘦高‘。
  • 中位数=均值=众数
      正态分布由两个参数决定:均数和标准差。均数是位置参数,决定分布集中的位置;标准差是形状参数,决定分布的分散程度。

(4)正态分布统计规律

  • 1倍标准差面积:68.2%
  • 1.96倍标准差:95%
  • 2倍标准差:95.4%
  • 3倍标准差:99.7%,1000大概会有3次错误发生的几率。
  • 6倍标准差:以外的面积为百万分之2。100万份样品出现2次错误。

  好比,X变量(身高)服从:X~N(μ,σ2),其中μ=170,σ=10,则95%的人身高值都落在[150.4,189.6]之间。
  倘若是有偏分布,再用正态分布的统计规律去估算几率,就会变得不许确。好比,正偏分布(多数取值位于较小一端,少数取值位于较大一端),从正态分布得出的几率将低估较小一端的实际取值个数,高估较大一端实际取值个数。

(5)小几率事件(P<0.05)

  P<0.05,认为差别有统计学意义。对于正态分布来讲,两侧面积小于5%。即均数往左往右各1.96倍标准差时,对应的左侧和右侧面积之和就是5%。这个几率很低,通常状况不会发生,认为是小几率事件。

(6)标准正态分布——Z分数(Z变换)(Standarized Normal Distribution)

为何要进行Z变换?——消除不一样测量单位的差别,相似于方差和标准差思想。
例子
  生物100分,考了65分;统计学200分,考了42分。哪门成绩更好?假如“更好”意味着答题正确率,显然生物更好。可是这不公平,由于题目难度不同,统计学比生物难太多。公平的作法是,与全班同窗相比,成绩处于哪一个百分点。
  生物:μ=60,σ=10,意味着分数比均值高5分(0.5个标准差);
  统计:μ=37,σ=5 ,意味着分数比均值高5分(1.0个标准差);

3.5 几个常见分布:t分布、x2分布,F分布

  T检验对应t分布,x2检验对应x2分布,方差分析对应F分布。

(1)T分布

(2)x2分布

(3)F分布

4、数据资料分类

5、描述统计

6、中心极限定理和大数定理

7、假设检验

7.2 零假设和备择假设

零假设(无效假设Null Hypothesis):通常从正面作出假设(不具有XXX,没有XXX等)。

8、参数估计

9、置信区间

10、统计方法串讲

10.1 通常线性模型(General Linear Model)——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

  • t检验——两组均值比较
  • 方差分析——多组均值比较
  • 线性回归——自变量对因变量的影响分析
    ②通常线性模型
    t检验、方差分析、线性回归等都属于通常线性模型,通常线性模型基本形式:

      y:因变量(反应变量、结局变量),x:自变量(解释变量、预测变量)。β0表示截距,反映自变量x=0时,y的均值。β一、β2表示斜率,反映自变量增长1单位,y值变更的大小。
      通常线性模型中,因变量必须是定量的(连续),自变量能够是定量或分类。自变量的不一样形式对应不一样的统计方法:

11、正态性和方差齐性

①作正态性检验必要性
  保证样本数据的随机性,由于随机数就是正态分布的。
②正态性和方差齐性含义
  正态性和方差性是经典统计模型应用的两个前提条件,t检验、方差分析、线性回归等都须要知足这两个条件:

  • 正态性(Normality):严格上说是残差要符合正态分布,不过实际中都是对因变量进行正态性检验。
  • 方差齐性(Equality of Variances):即方差相等,自变量x每取一个值,因变量(严格说是残差)的方差基本相等。

11.1 用统计检验方法判断正态性

(1)基于峰度和偏度的SW(Shapiro-Wilk)检验

①峰度和偏度

  • 峰度(Kurtosis):分布形状是平坦仍是尖峰,上下维度。
  • 偏度(Skewness):分布形状是否对称,左右维度。
    ②正态分布的峰度和偏度
      正态分布的峰度和偏度均为0。峰度>0,尖峰;峰度<0,平坦峰。偏度>0,右偏态(正偏);偏度<0,左偏态(负偏)。

(2)基于拟合优度KS、CVM、AD检验

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)、AD(Anderson-Darling)
①拟合优度思想
  基于理论分布与基于实际数据获得的分布之间的差别。这种思想不只能够用于正态分布,还能够用于其余分布检验。
②正态分布拟合优度检验思路
  先求出正态分布的累积分布函数(CDF,Cumulative Distribution Function)——>样本数据与该函数差异——>差异不大,接近正态分布——>差异较大,样本数据可能不服从正态分布。
③三种方法对“差异”的定义
三种检验都基于此思想,区别在于对“差异”定义:

  • KS:取绝对值
  • CVM:取平方
  • AD:对CVM的改进

④参考网站
KS:KS
python正态检验方法:python正态检验方法

11.2 用描述的方法判断正态性——图形判断

(1)Q-Q图和P-P图

①Q-Q图含义和检验原理
  Q-Q(Quantile-Quantile),分位数-分位数图。横坐标,理论正态分位数,纵坐标,实际数据分位数。
  比较分位数和实际分位数差异。无差异,点集中在一条直线,正态分布。有差异,偏离直线较远。
②P-P图
  P-P(Probability-Probability),和Q-Q相似,用的是累计几率。

(2)茎叶图

(3)用四分位数间距和标准差进行简易判断

  正态分布四分位间距(IQR)和标准差(s)之比大约为1.34。若IQR/s=1.34左右,基本知足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
  就是判断两组或多组的方差是否相等,样本抽样是否是随机的。方差不等会严重影响方差分析的F检验。
②各类检验方法
...................................

12、T检验