特征工程:数据处理,模型训练集锦(一)

本文是长期学习总结笔记,文中图片摘自寒小阳老师上课讲义。html ##数据格式化 数据量不大,能够存文本,数据库 数据量大,放集群hadoop上:hive表,hdfs文件web ##数据清洗 数据库 ##数据缺省 app 若是缺值的样本占总数比例极高,咱们可能就直接舍弃了,做为特征加入的话,可能反倒带入noise,影响最后的结果了 若是缺值的样本适中,而该属性非连续值特征属性(好比说类目属性),那
相关文章
相关标签/搜索