特征工程是数据分析中最耗时间和精力的工做, 更可能是工程上的经验和权衡。 问题导向+专家导向: 咨询业务数据相关的专家对特征维度有个初步了解。 哪些特征影响大,特征影响小
小于某个阈值的特征过滤掉。 方差: 小于某个阈值直接舍弃。 相关系数: 主要用于输出连续值的监督学习算法中。 分别计算全部训练集中各个特征与输出值之间的相关系数。 假设检验: 卡方检验,检验某个特征分布和输出值分布之间的相关性。 F检验和t检验 互信息(信息增益): 互信息值越大,说明该特征和输出值之间的相关性越大,越须要保留。
根据目标函数,每次选择若干特征或者排除若干特征,直到选择出最佳的子集。 嵌入法:先使用某些机器学习的算法和模型进行训练,获得各个特征的权值系数,根据系数从大到小选择特征。相似于Filter方法,可是是经过训练来肯定特征的优劣。
参考