google机器学习速成课程

特征工程算法 良好特征的特色:api 避免使用不多使用的离散特征值,良好的特征值应该出现5次以上 最好具备清晰明确的含义 不要将”神奇“的值域实际数据混为一谈,即不包含超出范围的异常值 考虑上游不稳定,即特征的定义不随时间变化 数据缩放:缓存 [min,max] (value-mean)/stddev 处理离群值:服务器 取对数 限制最大值 分段或分箱 数据清理:网络 遗漏值 重复样本 不良标签
相关文章
相关标签/搜索