特征工程：数据处理，模型训练集锦(一)

时间 2021-01-07

原文原文链接

本文是长期学习总结笔记，文中图片摘自寒小阳老师上课讲义。数据格式化数据量不大，可以存文本，数据库数据量大，放集群hadoop上：hive表，hdfs文件数据清洗数据缺省如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中

>>阅读原文<<

1. 特征工程：数据处理，模型训练集锦(一)
2. 数据预处理和特征工程
3. 数据预处理与特征工程
4. sklearn 数据处理与特征工程
5. 数据处理和特征工程
6. 特征工程与数据预处理
7. 特征工程：数字型特征预处理
8. 特征工程之特征预处理
9. 特征工程-特征处理
10. 特征工程特征处理
更多相关文章...
• Scala Trait(特征) - Scala教程
• 错误处理 - RUST 教程
• ☆技术问答集锦（13）Java Instrument原理
• Flink 数据传输及反压详解