数据分析中主要有两类变量:算法
数据探索中,主要计算数据的一些统计量,并经过图和表的形式进行总结排序
通常来讲,获得数据后首先检查数据的质量,如:每一个变量的取值是否合乎数据定义,一般经过计算数据的一些统计量来检查数据是否存在问题。另外一个问题是数据一般存在缺失值,进行数据探索时要计算每一个变量是否存在缺失值,以及缺失值的比例等。数据分析
统计变量包括两个方面:数据可视化
对分类变量:变量
对数值变量:可视化
实际建模中,数据预处理是很是关键的一步,直接影响最终模型结果的好坏,大多数状况下,原始数据都不宜直接用来建模,须要对数据进行预处理后才能够建模,数据预处理包括:数据类型
基于树的模型对数据不是特别敏感,线性回归对数据敏感方法
第一步:明确缺失数据的重要性,若是对目标值的预测不重要,直接删除改变量,若是很重要,第一种方法一般采用可以处理缺失数据的算法进行建模(如:基于决策树的模型),第二种方法是缺失值填充。统计
缺失值填充的经常使用方法:总结
k近邻进行填充:假设样本X_i的第j个变量缺失记为x_ij,目标就是要估计x_ij,首先利用x_i中没有缺失的变量,找到最相识的k个样本,并用这k个样本的第j个变量的平均值做为x_ij的估计值,缺失算法填充对主要的控制参数k不敏感
对数值变量,每一个变量都有本身的单位,为了解决这个问题,一般先进行数据标准化,通过标准化后的数据,均值都是0,标准差都是1
X_std = (X_i - X_mean)/X_标准差
归一化是把数据变为【0,1】之间:X_a = (X-X_min)/(X_max-X_min)
主成分分析PCA降维,可是新的变量是原来变量的线性组合,这样通常难以解释新变量
启发式方法,计算变量之间两两之间的相关系数,接近1或者-1,就须要删除其中一个变量,实际操做中能够要求两个变量之间相关系数的绝对值低于一个阀值(如0.75)
如:变量中有质量和体积,就能够新增密度,删除质量和体积等
决策树模型可以较好的处理分类变量,线性回归和逻辑回归不能之间处理分类变量,一般把分类变量转化为多个哑变量,取值只能为0和1,若是一个分类变量有k中不一样的取值,能够创建k-1个新的哑变量来代替,若是一个分类变量不一样取值太多,须要进行简化,如:体检打分:按照从差到好A、B、C、D、E和F,为了缩小变量取值范围,A、B=差 ,C、D=中,E、F=好
离主流数据很远的数据点定义为离群数据,一种经常使用的处理方法是对数据分组,具体是把全部样本变量的取值从小到大排序,而后分红若干组,而后对应组中数据的均值或者中位数来对他进行修正,经常使用的分组方法有:
一、直方图、茎叶图显示样本分布的有效方法
二、柱状图一般用来研究分类变量不一样取值的分布状况
三、箱线图:下四分位数、上四分位数、中位数
四、散点图研究变量之间的关系, x和y为不一样的两个变量