数据挖掘中的特征选择问题

       特征工程包括特征选择和特征提取。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。一般而言,特征选择是指选择得到相应模型和算法最好性能的特征集,工程上经常使用的方法:算法 ①计算每个特征与响应变量的相关性:计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数可以很好地度量各类相关性,可是计算相对复杂一些,好在不少toolkit里边都包含了这个工具(如s
相关文章
相关标签/搜索