描述性数据分析

1、什么是描述统计分析(Descriptive Analysis算法

概念:使用几个关键数据来描述总体的状况工具

描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查整体全部变量的有关数据作统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。spa

Excel里的分析工具库里的数据分析能够实现描述性统计分析的功能。3d

 

    描述性统计分析便是对数据源最初的认知,其次才能去作一些其余的分析。blog

 

2、经常使用指标ip

均值、中位数、众数体现了数据的集中趋势。开发

极差、方差、标准差体现了数据的离散程度。数据分析

偏度、峰度体现了数据的分布形状。数据挖掘

 

一、均值。均值容易受极值的影响,当数据集中出现极值时,所获得的的均值结果将会出现较大的误差。class

 

二、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。当数据个数为奇数时,中位数即最中间的数,若是有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数不受极值影响,所以对极值缺少敏感性。

 

三、众数:数据中出现次数最多的数字,即频数最大的数值。众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。

 

四、极差:=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但没法描述其分布状态。且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。

 

五、四分位数:数据从小到大排列并分红四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。四分位数能够很容易地识别异常值。箱线图就是根据四分位数作的图。

  • 四分位数的计算:

下四分位数的位置:

  1. 计算n/4
  2. 若是结果为整数,则下四分位数位于n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值
  3. 若是结果不为整数,则向上取整,所得结果为下四分位数的位置

上四分位数的位置:

  1. 计算3n/4,
  2. 若是结果为整数,则上四分位数位于3n/4这个位置和下一个位置的中间,取这两个位置上数值的平均值
  3. 若是结果不为整数,则向上取整,所得结果为上四分位数的位置

eg、3 3 6 7 7 10 10 11 13 30

n=11, 11/4=2.75,不为整,向上取整3,则下四分位数是第3个数,即6;

3*11/4=8.25,也不为整,向上取整9,则上四分位是第9个数,即11

 

箱线图能够用来比较不一样组别的数据。箱线图除了上下四分位数,还有上界(除异常点之外的最大值)、下界(除异常点之外的最小值)

 

六、方差和标准差。方差是每一个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小,方差小,表示数据集比较集中,波动性小,方差大,表示数据集比较分散,波动性大。因为标准差只能用于统一体系内的数据比较,若是要对不一样体系的数据比较,就要引入标准分的概念。

σ2=1Ni=1NXi-μ)2

σ=σ2

 

七、标准分z:对数据进行标准化处理,又叫Z标准化,通过Z标准化处理后的数据符合正态分布(即均值为0,标准差为1)。标准分是对不一样数据集的数据进行比较的量,可用来表示数据值在所在数据集内的相对排名 。标准分的意义是每一个数值距离平均值有多少个标准差。

有数据集x1,x2,x3,其平均值为μ,标准差为σ,则其标准分z为:

z=x2-μσ

 

八、峰度:描述正态分布中曲线峰顶尖哨程度的指标。峰度系数>0,则两侧极端数据较少,比正太分布更高更瘦,呈尖哨峰分布;峰度系数<0,则两侧极端数据较多,比正太分布更矮更胖,呈平阔峰分布。

九、偏度:以正态分布为标准描述数据对称性的指标。偏度系数=0,则分布对称;偏度系数>0,则频数分布的高峰向左偏移,长尾向右延伸,呈正偏态分布;偏度系数<0,则频数分布的高峰向右偏移,长尾向左延伸,呈负偏态分布。

还有一些其余的量,不只在描述性统计分析中常见,在数据报告中也很常见,如

十、绝对数

十一、相对数:倍数、成数、百分数

十二、百分比

1三、百分点:1个百分点=1%,是指变更的幅度

1四、频数:绝对数,是一组数据中个别数据重复出现的次数

1五、频率:相对数,次数与总次数的比。

1六、比例:相对数,整体中各部分占所有的比,如:男生的比例是30:50

1七、比率:相对数,不一样类别的比,如男女比率俄日3:2

1八、倍数:相对数,一个数除以另外一个数所得的商,如A/B=C,那么A是B的C倍。

1九、番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍

20、同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比

2一、环比:相对数,指与前一个统计期进行比较,现在年5月与今年4月相比是环比

 

3、经常使用的图

一、直方图

展现分组数据分布的图形。经过直方图能够看出数据的分布形状、分布的中心位置及数据分散的程度,由此判断数据是否符合正态分布。

 

二、箱线图  

箱线图就是根据四分位数作的图,箱线图能够用来比较不一样组别的数据。

上四分位数:数据从小到大排列排在第75%的数字

下四分位数(数据从小到大排列排在第25%位置的数字。

上边缘:除异常值之外的最大值

下边缘:除异常值之外的最小值

设四分位的百分比值为y,数据的数量为n,则分位数L=n x y获得。

  1. 状况1:若是L是整数,则取第L和第L+1位数的平均数
  2. 状况2:若是L不是整数,则向上取离L最近的一个整数。

如一、二、三、四、五、六、七、八、九、10

下四位数:10X25%=2.5,取向上最近的整数位第3位,下四位数为3

上四位数:10X75%=7.5,上四位数8

 

三、茎叶图

四、线图

五、饼图

 

4、数据分析(Data Analysis)

一、概念:用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的做用。

    数据分析是创建在业务的基础上,没有业务指标,数据分析也就失去了意义。

二、分类:描述性数据分析、探索性数据分析、验证性数据分析

三、做用:现状分析、缘由分析、预测分析

四、步骤

  1. 明确分析的目的和思路
  2. 收集数据(数据源获取)
  3. 数据处理
  4. 数据分析
  5. 数据展示
  6. 报告撰写

 

5、数据挖掘(Data Mining)

一、概念:运用基于计算机的方法从数据中得到有用知识的过程,叫作数据挖掘。从已知的数据集合中发现各类模型、概要和导出值得过程。

二、目标:数据挖掘的目标是预测和描述

三、分类:预测性数据挖掘和描述性数据挖掘。

四、步骤:

  1. 陈述问题,阐明假设(明确分析的目的和思路)
  2. 收集数据
  3. 数据预处理
  4. 模型评估
  5. 解释模型,得出结论