数据分析与数据挖掘实践(6)--数据清洗

数据样本抽样 样本具有代表性(比例保持一致) 样本比例平衡以及样本不平衡时如何处理 尽量使用全量数据Hadoop spark 1.异常值(空值)处理 1.识别异常值和重复值 Pandas:isnull()/duplicated 2.直接丢弃 Pandas:drop()/dropna()/drop_duplicated() 3.异常值(空值)处理 当是否有异常当作一个新的属性,代替原值 Pandas
相关文章
相关标签/搜索