Python数据处理:五分钟搞定异常值和重复值

一、异常值 处理异常值之前,需要明确哪些是异常值。有很多种规则和方法来筛选异常值,这里我们以Z标准化得到的阈值作为判断标准。 利用正态分布定位异常值 Z标准化会将数据转换为标准差为1,均值为0且符合正态分布的数据序列,一般来说,99%以上的数据都聚集在均值周围三个标准差距离范围内。这里我们以两个标准差为界,超出则算作异常值。 z标准化的公式为:       可以看到,在第一列中,最后一个数字150
相关文章
相关标签/搜索