简单随机抽样
分层抽样:先依据特征将整体划分为多个部分,而后在各个子部分进行抽样
等距抽样:先将整体按照某一标准排列,而后按照固定的间隔进行抽取
整群抽样:先将整体按单位划分为多个群,而后在各个群中进行抽取
多阶段抽样:先按整体的层次关系进行划分,再随机抽取高层次的群,而后依次按层次抽取html
在统计学中,数据表与数据图是最经常使用最有效的展现数据的方法web
可视化方法:频数表、频率表、频数柱状图、频率柱状图、频率扇形图、茎叶图、频数分布直方图、频率分布直方图、累积频率曲线
下图为累积频率分布直方图
下图为茎叶图,左侧为十位数,右侧为个位数
app
平均数、中位数、众数(集中趋势)
方差、标准差(离散趋势)
平均数易受极端值影响,中位数不受极端值影响
可视化方法:箱线图
箱线图展现了一组数据的最小值、最大值、四分位数、中位数,与直方图相比,箱线图并不能表示出分布状况
ide
切比雪夫不等式描述了样本分布中极值比例的最大值
例如:若取k等于2,则在均值两倍标准差以外的离群值比例最大为25%
单侧切比雪夫不等式:
例如:若取k等于2,则大于均值两倍标准差以外的离群值比例最大为20%svg
正态分布(normal):钟形曲线、对称分布于中位数(平均数、众数)两侧
左拖尾分布(left-skewed):数据于峰值左侧分布多,众数>中位数>平均数
右拖尾分布(right-skewed):数据于峰值右侧分布多,众数<中位数<平均数
双峰分布(bimodal):相似于两个正态分布叠加spa
下图依次为正态分布、左拖尾分布、右拖尾分布和双峰分布
3d
皮尔逊相关系数:
r>0表示样本正相关,r<0表示样本负相关
皮尔逊相关系数的物理意义:
分子表示x在均值周围的分布状况乘y在均值周围的分布状况,表示x与y的相关性
分母为自由度(n-1)乘x与y的标准差,为分子标准化
注:相关性并不表明因果性,没法进行因果推断orm