分析思惟 第四篇:数据分析入门阶段——描述性统计分析和相关分析

数据分析的入门思惟,首先要认识数据,而后对数据进行简单的分析,好比描述性统计分析和相关性分析等。编码

一,认识变量和数据

变量和数据是数据分析中经常使用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫作观测值。3d

1,变量blog

变量是用来描述整体中成员的某一个特性,例如,性别、年龄、身高、收入等。事务

变量能够分为:文档

  • 定性变量:用于分类,通常是文本,例如,性别、颜色
  • 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值能够把事务排列为高低或大小,可是各个变量值之间没有确切的间隔距离,没法肯定两个定序变量之间相差多少。
  • 定量变量:是数量变量,可以比较大小。分为两类:离散变量和连续变量。

2,数据数据分析

数据是变量的具体值,按照变量的类型,能够把数据分为:分类数据、顺序数据和数值型数据。入门

按照数据分析的目的,能够把数据分为实验组(Treatment)和参照组(Control)。变量

按照数据的类型,能够把数据分为:文本数据、数值型数据和日期时间数据。方法

3,缺失值im

不是全部的数据都是完整的,有些观测值可能会缺失,对于缺失值,一般的处理方式是:删除缺失值所在的数据行,填充缺失值、插补缺失值。

4,观测值的重编码

数据分析中,一般须要把连续型变量转换为定序变量,例如,把学生的成绩划分为优秀、良好、合格和差4个等级,这种操做也称做离散化。

当观测数据所用的单位可能影响数据分析时,还须要对数据进行规范化,经常使用的规范化方法是:最小-最大规范化,标准化变换等。

观测值的重编码,后续会有详细的介绍。

二,描述性统计分析

描述性统计量分为:集中趋势、离散程度(离中趋势)和分布形态。

1,集中趋势的描述性统计量

  • 均值:是指一组数据的算术平均数,描述一组数据的平均水平,是集中趋势中波动最小、最可靠的指标,可是均值容易受到极端值(极小值或极大值)的影响。
  • 中位数:是指当一组数据按照顺序排列后,位于中间位置的数,不受极端值的影响,对于定序型变量,中位数是最适合的表征集中趋势的指标。
  • 众数:是指一组数据中出现次数最多的观测值,不受极端值的影响,经常使用于描述定性数据的集中趋势。

2,离散程度的描述性统计量

  • 最大值和最小值:是一组数据中的最大观测值和最小观测值
  • 极差:又称全距,是一组数据中的最大观测值和最小观测值之差,记做R,通常状况下,极差越大,离散程度越大,其值容易受到极端值的影响。
  • 方差和标准差:是描述一组数据离散程度的最经常使用、最适用的指标,值越大,代表数据的离散程度越大。

3,分布形态的描述性统计量

偏度:用来评估一组数据的分布呈先的对称程度,当偏度=0时,分布是对称的;当偏度>0时,分布呈正偏态;当偏度<0时,分布呈负偏态。

峰度:用来评估一组数据的分布形状的高低程度的指标,当峰度=0时,分布和正态分布基本一直;当峰度>0时,分布形态高狭;当峰度<0时,分布形态低阔。

4,频率分析

频数分布分析(又称频率分析)主要经过频数分布表、条形图和直方图、百分位值等来描述数据的分布特征。

在作频数分布分析时,一般按照定性数据(即分类的类别),统计各个分类的频数,计算各个分类所占的百分比,进而获得频率分布表,最后根据频率分布表来绘制频率分布图。

 

5,按照时间递增的趋势分析

特殊状况下,当X轴是日期数据,Y轴是统计量(好比均值、总数量)时,能够绘制出统计量按照时间递增的趋势图,从图中能够看到统计量按照时间增长的趋势(无变化、递增或递减)和周期性。

例如,下图的X轴是日期,Y轴的统计量是总数量,两条折线分别是湖北确诊病例人数和湖北新增确诊病例人数:

三,相关性分析 

相关性分析是研究事务之间是否存在某种依存关系,并对具备依存关系的现象进行相关方向和相关程度的分析。

相关程度用相关系数r表示,|r|<=1,r=0表示不相关,一般状况下,0 < | r | <1表示变量之间存在不一样程度的线性相关,根据约定的规则:

  • | r | <=0.3 :为弱线性相关或不存在线性相关;
  • 0.3 < | r | <=0.5 :低度线性相关,认为存在线性相关,可是相关性不明显
  • 0.5 < | r | <=0.8 :显著线性相关,认为存在强线性相关,存在明显的相关性
  • | r | >0.8 :高度相关,认为存在极强的线性相关

 

 

参考文档:

相关文章
相关标签/搜索