数据探索(一)之数据质量分析

数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据一般是指不符合要求以及不能直接就行应用分析的数据。脏数据包括:缺失值、异常值、不一致的值、重复数据以及含有特殊符号(#、¥、*)的数据。 1.缺失值分析   缺失值是指某个记录的缺失或者记录中的某个字段信息的缺失,如某小区居住人员信息统计数据中的某些居民数据的缺失或者某位居民数据中年龄或性别的缺失。   缺失值产生的原因主要有三点:1.有
相关文章
相关标签/搜索