简析方差、标准差与数值离散程度

方差(variance): 变量与其均值的差的平方和除以(变量数+1)。3d

   若有一组数据: [1,2,3,4,5], 其均值就是 (1+2+3+4+5) / 5 = 3blog

   因此其方差为: ((1-3)^2 + (2-3)^2 +(3-3)^2 + (4-3)^2 + (5-3)^2) /( 5+1) = 1.6666....generator

  

 

标准差(standard deviation):方差的算术平方根io

  

 

方差和标准差反应了一组数据的离散程度:import

当方差越小时,数据的离散程度越小变量

而当方差越大时,数据的离散程度也就越大。im

若有两组数据数据

A = [1,2,3,4,5]blob

B=[1,5,7,9,11]img

A 的方差为2 、B的方差为11.84 ,从方差的大小比较,var(A)<var(B)

因此B的离散程度比A的离散程度高

 

为何方差能够体现数据的离散程度?

由公式可知:

当全部的变量值都同样时,均值等于变量值

因此方差为0,此时离散程度为0。当各个变量值里均值都有必定距离时

方差大于0。

 

例子:

经过使用 from sklearn.datasets.samples_generator import make_blobs 围绕3个中心点来生成数据集

红色的点表明 中心点

蓝色的点表明 生成点

经过修改make_blobs里面的cluster_std参数来控制 生成点 与 中心点之间的离散程度。而cluster_std参数

对应就是标准差

(1)当标准差为 0.60时:

(2) 当标准差为 0.3时

图像反映了不一样标准差之间数据发布的状况

   

由此也反映了标准差与数值离散程度之间的对应关系。

相关文章
相关标签/搜索