特征工程基础

大纲 可用性评估:获取难度、覆盖率、准确率 特征清洗:清洗异常样本 采样:数据不均衡、样本权重 单个特征:无量纲化(标准化、归一化)、二值化、离散化、缺失值(均值)、 - 哑编码(一个定性特征扩展为N个定量特征) 数据变换:log、指数、Box-Cox 降维:主成分分析PCA、线性判别分析LDA、SVD分解 特征选择:Filter(相关系数、卡方检验)、Wrapper(AUC、设计评价函数A*、E
相关文章
相关标签/搜索