实战:数据质量检查

数据质量检查是在完成宽表数据开发后进行的,主要包括四个方面:重复值检查、缺失值检查、数据倾斜问题、异常值检查。python 1. 重复值检查 1.1 什么是重复值 重复值的检查首先要明确一点,即重复值的定义。对于一份二维表形式的数据集来讲,什么是重复值?主要有两个层次: ① 关键字段出现重复记录,好比主索引字段出现重复; ② 全部字段出现重复记录。 第一个层次是不是重复,必须从这份数据的业务含义进
相关文章
相关标签/搜索