《白话统计&&白话统计学》

时间 2021-08-13

标签 html python 算法 api dom 函数网站设计 3d orm 栏目 HTML 繁體版

原文原文链接

1、术语

1.1 整体和样本，参数和统计量

整体（population）：
样本：整体的子集
参数（parameter）：整体数据计算的值，适用于整体
统计量（statistic）：样本数据计算的值
描述统计（descriptive）：描述收集数据样本或整体的信息
推断统计（inferential）：假定收集的样本可以表明更大的整体，利用样本数据获得整体特征的一些结论。
注意：整体可大可小，要看你想研究什么对象；样本不必定能表明整体，假如不能表明整体，此时获得的样本统计量只能用于描述统计，而不能推断整体参数。

1.2抽样

随机抽样（random sampling）：每个样本被选中的几率相等。
典型抽样（representative sampling）：人为的有意选取样本某些特征和整体相匹配。如整体中男女比例7:3，样本选取是男女比例也是7:3。
方便抽样（convenience sampling）：根据地理位置、接触难度、参与意愿来选择样本。

1.3变量类型和测量尺度

（1）变量类型html

定量/连续（continuous）变量：身高
定性/分类（categorical）变量：男女（二值变量dichotomous variable）
（2）测量尺度
定类尺度：又叫分类数据，特色是不可排序不可运算。好比，国籍，不能说中国大于美国。只能对面人口、面积。又好比男女
定序尺度：特色是能够排序但不能够运算。好比，健康情况（优良中差），优比良好，可是‘’优‘’减不了‘’良‘’
定矩尺度：0点有意义，好比年份1987，零点能够是公元0年，耶稣出生那年。固然0点能够随意定义，假如你统治了时间，你能够把0点定为你出生那年，只要有意义便可。
定比尺度：0点无心义，好比体重56公斤，0公斤没有意义。

后两种数据统称为数值数据。能够排序能够运算。python

1.4研究设计

实验组设计：将样本分红不一样组，而后对感兴趣的一个或多个变量进行组间比较。如：AB test
相关性研究设计：收集若干变量数据，进行统计分析以肯定不一样变量之间彼此相关的强度。

实验性设计变量因素可控、可分离，但也很难排除全部的干扰因素。相关性研究设计易于实施，但没法施加精准控制。相关性研究只能提供变量间是否相关的信息（统计理论信息），不能得出实际的因果关系结论（实际业务信息）。算法

2、分布的集中趋势和分散变异

2.1集中趋势

集中趋势：又称“数据的中心位置”、“集中量数”，一组数据的表明值。是用来描述舆论现象的重要统计分析指标。
（1）均值（算术平均数）mean
描述平均水平。理论计算方式：
api

Outliers（异常值、极端值）：数据集中会包含一个或多个数值异常大或异常小的值。异常值检查方法——（四分位计算法）。
数据偏斜（skewed data）现象：when the outliers “pull” the data to the left or right。
Mean最大的缺陷——受outliers影响较大。因此mean最适用的状况为：
The data is symmetric（均匀的）
With the one trend（趋势）均值回归
（2）中位数
定义：将数据按大小顺序（从大到小或是从小到大均可以）排列后处于中间位置的数。
理论计算方式——从小到大排序，分为两种状况：

n=odd number（奇数）,median position=(n+1)/2
n=even number（偶数）,median positon=n/2 or n/2+1,so median=two median number/2

最适用的状况：the data is skewed by outliers.由于中位数不受outliers影响，只跟序列的位置有关。
（3）四分位数quartile
定义：把全部数值由小到大排列并分红四等份，处于三个分割点位置的数值。
下四分位数：Q1，从小到大的顺序排序排在第25%位置的数字。
上四分位数：Q3，在第75%位置的数字
四分位距interquartile range：IQR，等于Q3-Q1，衡量数据离散程度的一个统计量
Quartile做用——检查异常值tukey test：
最小值估计=Q1-K * IRQ
最大值估计=Q3+K * IRQ
其中，K=1.5（中度异常）/3（极度异常）
理论计算方式：

方式一，基于n基础
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
方式二，基于n-1基础
Q1的位置=1+（n-1）x 0.25
Q2的位置=1+（n-1）x 0.5
Q3的位置=1+（n-1）x 0.75
若是算出来是小数，取下一个最近的整数。

（4）众数mode——定类数据dom

数据中出现次数最多的数（所占比例最大的数），可能会存在多个众数(多峰)，也可能不存在众数。函数
适用的状况：不只适用于数值型数据，对于非数值型数据也一样适用。
（5）mean、median、mode三者比较

网站
Mean>median：数据向右偏（正偏，尾部趋向高端），右端可能存在极大值（右边有大的数据，拉高平均值）设计
Mean<median：数据向左偏（负偏，尾部趋向低端），左端可能存在极小值（左边有小的数据，拉低平均值）3d

中位数位置不变，均值被拉向尾巴一端。好比最大的数为100时，中位数和均值相等，变成200后（正偏），均值被拉大，中位数不变。orm

（6）异常值检查方法
异常值检查方法

2.2 离散程度和相关性

对于离散程度的程度衡量，能够只针对单一变量自身离散程度，如极差、方差、标准差、变异系数等；也能够针对多变量的离散程度之间的相关性，如协方差、相关系数、皮尔森系数。

极差range：max()-min()
四分位差interquartile range：75%-25%（分红四组，包含中间两组数）
离差deviation：点到均值之差。与原单位相同
离差平方和：离差的平方后求和相加。消除正负抵消，相加为0。单位：原单位的平方。平方和基础统计学的重要组成部分。
方差variance：点到均值的距离平方（离差平方）和的平均，单位：原单位的平方。通常不用来描述分布，用来做为计算其余统计量（如方差分析）的一个步骤，而不是单独使用的统计量。
标准差stardard deviation：方差开方，单位：和原单位相同。更喜欢用标准差描述一个分布中取值的平均离散程度。结合均值能够很好描述一个分布的形态。

变异系数（coefficient of variation）：

变异系数CV，又称“离散系数”（英文：coefficient of variation），是几率分布离散程度的一个归一化量度，其定义为标准差与平均值之比。单位：无量纲。

协方差：

倘若有两个变量X,Y，每一个时刻的“X值与其均值只差”乘以“Y值与其均值之差”获得一个乘积，再对这每时刻的乘积求和并求出均值。
反映两个变量在变化过程当中，是同向变化仍是反向变化，同向或反向的程度如何：

你变大，我也变大，说明两变量是同向变化，协方差为正；
你变大，同时我变小，说明两变量是反向变化，协方差为负；
协方差数值越大，两变量同向程度也越大，反之亦然。

相关系数：

用X、Y的协方差除以X的标准差和Y的标准差。相关系数也能够当作协方差：一种剔除了两个变量量纲影响、标准化后的特殊协方差。
也能够反映两个变量变化时是同向仍是反向，若是同向变化就为正，反向变化就为负；
因为它是标准化后的协方差，所以更重要的特性来了：它消除了两个变量变化幅度的影响，而只是单纯反应两个变量每单位变化时的类似程度。
皮尔森系数（pearson）：

参考网站：
协方差和相关系数史诗级白话介绍：协方差和相关系数

3、分布

3.1 累计函数和几率密度函数

参考网站：累计函数和几率密度函数
①离散型数据
几率函数（几率分布、分布律）：离散随机变量X取不一样的值，对应不一样的几率值。
几率分布函数（累计几率函数）F(x)：几率函数取值的累加结果。

②连续型数据
几率密度函数（连续型数据几率函数）f(x)：连续型数据，某点的几率为0。只能用某点数据密集程度表示几率分布状况。

左边是F(x)连续型随机变量分布函数画出的图形，右边是f(x)连续型随机变量的几率密度函数画出的图像，它们之间的关系就是，几率密度函数是分布函数的导函数。

3.4 正态分布（Normal Distribution）

（1）正态分布描述现象

普通分布，描述某些稳定但又受到一些偶然因素影响的现象。

（2）正态分布几率密度函数

（3）正态分布密度函数数学意义

f(x)永远大于0，左右对称，当x=μ，即等于均数时，几率密度函数达到最大值；
x离均数越远，f(x)值越小，距离无限远时，趋于0；
标准差σ越大，f(x)值越小，分布形状越“矮”，峰度平坦；反之，越’瘦高‘。
中位数=均值=众数
正态分布由两个参数决定：均数和标准差。均数是位置参数，决定分布集中的位置；标准差是形状参数，决定分布的分散程度。

（4）正态分布统计规律

1倍标准差面积：68.2%
1.96倍标准差：95%
2倍标准差：95.4%
3倍标准差：99.7%，1000大概会有3次错误发生的几率。
6倍标准差：以外的面积为百万分之2。100万份样品出现2次错误。

好比，X变量（身高）服从:X~N（μ,σ2），其中μ=170，σ=10，则95%的人身高值都落在[150.4,189.6]之间。
倘若是有偏分布，再用正态分布的统计规律去估算几率，就会变得不许确。好比，正偏分布（多数取值位于较小一端，少数取值位于较大一端），从正态分布得出的几率将低估较小一端的实际取值个数，高估较大一端实际取值个数。

（5）小几率事件（P<0.05）

P<0.05，认为差别有统计学意义。对于正态分布来讲，两侧面积小于5%。即均数往左往右各1.96倍标准差时，对应的左侧和右侧面积之和就是5%。这个几率很低，通常状况不会发生，认为是小几率事件。

（6）标准正态分布——Z分数（Z变换）（Standarized Normal Distribution）

为何要进行Z变换？——消除不一样测量单位的差别，相似于方差和标准差思想。
例子：
生物100分，考了65分；统计学200分，考了42分。哪门成绩更好？假如“更好”意味着答题正确率，显然生物更好。可是这不公平，由于题目难度不同，统计学比生物难太多。公平的作法是，与全班同窗相比，成绩处于哪一个百分点。
生物：μ=60，σ=10，意味着分数比均值高5分（0.5个标准差）；
统计：μ=37，σ=5 ，意味着分数比均值高5分（1.0个标准差）；

3.5 几个常见分布：t分布、x2分布，F分布

T检验对应t分布，x2检验对应x2分布，方差分析对应F分布。

（1）T分布

（2）x2分布

（3）F分布

4、数据资料分类

5、描述统计

6、中心极限定理和大数定理

7、假设检验

7.2 零假设和备择假设

零假设（无效假设Null Hypothesis）：通常从正面作出假设（不具有XXX，没有XXX等）。

8、参数估计

9、置信区间

10、统计方法串讲

10.1 通常线性模型（General Linear Model）——方差分析与线性回归统计

①t检验、方差分析、线性回归用途

t检验——两组均值比较
方差分析——多组均值比较
线性回归——自变量对因变量的影响分析
②通常线性模型
t检验、方差分析、线性回归等都属于通常线性模型，通常线性模型基本形式：

y：因变量（反应变量、结局变量），x：自变量（解释变量、预测变量）。β0表示截距，反映自变量x=0时，y的均值。β一、β2表示斜率，反映自变量增长1单位，y值变更的大小。
通常线性模型中，因变量必须是定量的（连续），自变量能够是定量或分类。自变量的不一样形式对应不一样的统计方法：

11、正态性和方差齐性

①作正态性检验必要性
保证样本数据的随机性，由于随机数就是正态分布的。
②正态性和方差齐性含义
正态性和方差性是经典统计模型应用的两个前提条件，t检验、方差分析、线性回归等都须要知足这两个条件：

正态性（Normality）：严格上说是残差要符合正态分布，不过实际中都是对因变量进行正态性检验。
方差齐性（Equality of Variances）：即方差相等，自变量x每取一个值，因变量（严格说是残差）的方差基本相等。

11.1 用统计检验方法判断正态性

（1）基于峰度和偏度的SW（Shapiro-Wilk）检验

①峰度和偏度

峰度（Kurtosis）：分布形状是平坦仍是尖峰，上下维度。
偏度（Skewness）：分布形状是否对称，左右维度。
②正态分布的峰度和偏度
正态分布的峰度和偏度均为0。峰度>0，尖峰；峰度<0，平坦峰。偏度>0，右偏态（正偏）；偏度<0，左偏态（负偏）。

（2）基于拟合优度KS、CVM、AD检验

KS（Kolmogorov-Smirnov）、CVM（Cramer-von Mises）、AD（Anderson-Darling）
①拟合优度思想
基于理论分布与基于实际数据获得的分布之间的差别。这种思想不只能够用于正态分布，还能够用于其余分布检验。
②正态分布拟合优度检验思路
先求出正态分布的累积分布函数（CDF，Cumulative Distribution Function）——>样本数据与该函数差异——>差异不大，接近正态分布——>差异较大，样本数据可能不服从正态分布。
③三种方法对“差异”的定义
三种检验都基于此思想，区别在于对“差异”定义：

KS：取绝对值
CVM：取平方
AD：对CVM的改进

④参考网站
KS：KS
python正态检验方法：python正态检验方法

11.2 用描述的方法判断正态性——图形判断

（1）Q-Q图和P-P图

①Q-Q图含义和检验原理
Q-Q（Quantile-Quantile），分位数-分位数图。横坐标，理论正态分位数，纵坐标，实际数据分位数。
比较分位数和实际分位数差异。无差异，点集中在一条直线，正态分布。有差异，偏离直线较远。
②P-P图
P-P（Probability-Probability），和Q-Q相似，用的是累计几率。

（2）茎叶图

（3）用四分位数间距和标准差进行简易判断

正态分布四分位间距（IQR）和标准差（s)之比大约为1.34。若IQR/s=1.34左右，基本知足正态分布。

11.3 方差分析中方差齐性判断

①方差齐性判断
就是判断两组或多组的方差是否相等，样本抽样是否是随机的。方差不等会严重影响方差分析的F检验。
②各类检验方法
...................................