etl:数据清洗的一些梳理

数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。国外有些学术机构会专门研究如何做数据清洗,相关的书籍也不少。   (美亚搜data cleaning的结果,可以看到这书还挺贵)   我将在这篇文章中,尝试非常浅层次的梳理一下数据清洗过程,供各位参考。 照例,先上图:   预处理阶段 预处理阶
相关文章
相关标签/搜索