数据预处理之缺失值、异常值处理

缺失值的检查与处理应该来说是比较简单的,这篇先来说说异常值的检查与处理

一、异常值的检查

异常值的检查,最初我都是作图观察,把那些明显偏离了整体分布情况的点划归为异常点,这样的做法也带有比较强的主观性。

这边补充一些用来判断异常值的统计学方法。


1、基于正态分布的一元离群点检测方法

假设有 n 个点 ,那么可以计算出这 n 个点的均值  和方差。均值和方差分别被定义为:


                                         

在正态分布的假设下,区域 正负三个标准差 包含了99.7% 的数据,如果某个值距离分布的均值  超过了三个标准差,那么这个值就可以被简单的标记为一个异常点(outlier)。


2、箱线图

箱线图是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法。箱线图无需对数据进行正态分布要求。适用范围广。