特征工程:数据处理,模型训练集锦(一)

本文是长期学习总结笔记,文中图片摘自寒小阳老师上课讲义。 数据格式化 数据量不大,可以存文本,数据库 数据量大,放集群hadoop上:hive表,hdfs文件 数据清洗 数据缺省 如果缺值的样本占总数比例极高,我们可能就直接舍弃了,作为特征加入的话,可能反倒带入noise,影响最后的结果了 如果缺值的样本适中,而该属性非连续值特征属性(比如说类目属性),那就把NaN作为一个新类别,加到类别特征中
相关文章
相关标签/搜索