几率论与统计(一) 描述性统计

时间 2020-09-10 标签几率统计描述

文章目录

1.抽样

简单随机抽样
分层抽样：先依据特征将整体划分为多个部分，而后在各个子部分进行抽样
等距抽样：先将整体按照某一标准排列，而后按照固定的间隔进行抽取
整群抽样：先将整体按单位划分为多个群，而后在各个群中进行抽取
多阶段抽样：先按整体的层次关系进行划分，再随机抽取高层次的群，而后依次按层次抽取html

2.描述性统计方法

在统计学中，数据表与数据图是最经常使用最有效的展现数据的方法web

2.1 频数、频率相关

可视化方法：频数表、频率表、频数柱状图、频率柱状图、频率扇形图、茎叶图、频数分布直方图、频率分布直方图、累积频率曲线
下图为累积频率分布直方图
下图为茎叶图，左侧为十位数，右侧为个位数
app

2.2 集中趋势、离散趋势

平均数、中位数、众数（集中趋势）
方差、标准差（离散趋势）
平均数易受极端值影响，中位数不受极端值影响
可视化方法：箱线图
箱线图展现了一组数据的最小值、最大值、四分位数、中位数，与直方图相比，箱线图并不能表示出分布状况
ide

3.切比雪夫不等式

切比雪夫不等式描述了样本分布中极值比例的最大值
$S_k = ( i, 1 \le i \le n:|x_i - \bar x| < ks)$
$\frac{|S_k|}{n} \ge 1-\frac{1}{k^2}$
例如：若取k等于2，则在均值两倍标准差以外的离群值比例最大为25%
单侧切比雪夫不等式：
$S_k = ( i, 1 \le i \le n:x_i - \bar x< ks)$
$\frac{S_k}{n} \ge 1-\frac{1}{1+k^2}$
例如：若取k等于2，则大于均值两倍标准差以外的离群值比例最大为20%svg

4.常见样本分布

正态分布(normal)：钟形曲线、对称分布于中位数(平均数、众数)两侧
左拖尾分布(left-skewed)：数据于峰值左侧分布多，众数>中位数>平均数
右拖尾分布(right-skewed)：数据于峰值右侧分布多，众数<中位数<平均数
双峰分布(bimodal)：相似于两个正态分布叠加spa

下图依次为正态分布、左拖尾分布、右拖尾分布和双峰分布

3d

5. 配对样本

皮尔逊相关系数：
$r = \frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sqrt(\sum_{i=1}^n(x_i-\bar x)^2\sum_{i=1}^n(y_i-\bar y)^2)}$
r>0表示样本正相关，r<0表示样本负相关
皮尔逊相关系数的物理意义：
分子表示x在均值周围的分布状况乘y在均值周围的分布状况，表示x与y的相关性
分母为自由度(n-1)乘x与y的标准差，为分子标准化
注：相关性并不表明因果性，没法进行因果推断orm