数据分析与数据挖掘实践(6)--数据清洗

时间 2020-12-30

原文原文链接

数据样本抽样样本具有代表性（比例保持一致）样本比例平衡以及样本不平衡时如何处理尽量使用全量数据Hadoop spark 1.异常值（空值）处理 1.识别异常值和重复值 Pandas：isnull（）/duplicated 2.直接丢弃 Pandas：drop（）/dropna（）/drop_duplicated() 3.异常值（空值）处理当是否有异常当作一个新的属性，代替原值 Pandas