几率论与统计(一) 描述性统计

1.抽样

简单随机抽样
分层抽样:先依据特征将整体划分为多个部分,而后在各个子部分进行抽样
等距抽样:先将整体按照某一标准排列,而后按照固定的间隔进行抽取
整群抽样:先将整体按单位划分为多个群,而后在各个群中进行抽取
多阶段抽样:先按整体的层次关系进行划分,再随机抽取高层次的群,而后依次按层次抽取html

2.描述性统计方法

在统计学中,数据表与数据图是最经常使用最有效的展现数据的方法web

2.1 频数、频率相关

可视化方法:频数表、频率表、频数柱状图、频率柱状图、频率扇形图、茎叶图、频数分布直方图、频率分布直方图、累积频率曲线
下图为累积频率分布直方图
累积频率分布直方图下图为茎叶图,左侧为十位数,右侧为个位数
在这里插入图片描述app

2.2 集中趋势、离散趋势

平均数、中位数、众数(集中趋势)
方差、标准差(离散趋势)
平均数易受极端值影响,中位数不受极端值影响
可视化方法:箱线图
箱线图展现了一组数据的最小值、最大值、四分位数、中位数,与直方图相比,箱线图并不能表示出分布状况
在这里插入图片描述ide

3.切比雪夫不等式

切比雪夫不等式描述了样本分布中极值比例的最大值
S k = ( i , 1 i n : x i x ˉ < k s ) S_k = ( i, 1 \le i \le n:|x_i - \bar x| < ks)
S k n 1 1 k 2 \frac{|S_k|}{n} \ge 1-\frac{1}{k^2}
例如:若取k等于2,则在均值两倍标准差以外的离群值比例最大为25%
单侧切比雪夫不等式:
S k = ( i , 1 i n : x i x ˉ < k s ) S_k = ( i, 1 \le i \le n:x_i - \bar x< ks)
S k n 1 1 1 + k 2 \frac{S_k}{n} \ge 1-\frac{1}{1+k^2}
例如:若取k等于2,则大于均值两倍标准差以外的离群值比例最大为20%svg

4.常见样本分布

正态分布(normal):钟形曲线、对称分布于中位数(平均数、众数)两侧
左拖尾分布(left-skewed):数据于峰值左侧分布多,众数>中位数>平均数
右拖尾分布(right-skewed):数据于峰值右侧分布多,众数<中位数<平均数
双峰分布(bimodal):相似于两个正态分布叠加spa

下图依次为正态分布、左拖尾分布、右拖尾分布和双峰分布
正态分布
左拖尾分布右拖尾分布双峰分布3d

5. 配对样本

皮尔逊相关系数:
r = i = 1 n ( x i x ˉ ) ( y i y ˉ ) ( i = 1 n ( x i x ˉ ) 2 i = 1 n ( y i y ˉ ) 2 ) r = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt(\sum_{i=1}^n(x_i-\bar x)^2\sum_{i=1}^n(y_i-\bar y)^2)}
r>0表示样本正相关,r<0表示样本负相关
皮尔逊相关系数的物理意义:
分子表示x在均值周围的分布状况乘y在均值周围的分布状况,表示x与y的相关性
分母为自由度(n-1)乘x与y的标准差,为分子标准化
注:相关性并不表明因果性,没法进行因果推断orm