google机器学习速成课程

特征工程 良好特征的特点: 避免使用很少使用的离散特征值,良好的特征值应该出现5次以上 最好具有清晰明确的含义 不要将”神奇“的值域实际数据混为一谈,即不包含超出范围的异常值 考虑上游不稳定,即特征的定义不随时间变化 数据缩放: [min,max] (value-mean)/stddev 处理离群值: 取对数 限制最大值 分段或分箱 数据清理: 遗漏值 重复样本 不良标签 不良特征值 奥卡姆剃刀:
相关文章
相关标签/搜索