大数据:特征工程

一、单变量特征筛选 计算每个特征与响应变量的相关性:工程上经常使用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性相关性而互信息系数可以很好地度量各类相关性,可是计算相对复杂一些,好在不少toolkit里边都包含了这个工具(如sklearn的MINE),获得相关性以后就能够排序选择特征了;web 二、单特征模型筛选 构建单个特征的模型,经过模型的准确性为特征排序,借此来选择特征,另外,记
相关文章
相关标签/搜索