特征选择——互信息量

  最近作了一个数据比赛,因为对数据背后的业务不太了解,因此特征工程大多采起了“暴力”提取的方式,最终特征过多直接致使模型存在过拟合问题。因此赛后总结在作特征工程的过程当中就要考虑特征的取舍问题,主要经过特征与因变量Y之间的相关性分析作出判断。   衡量单变量的相关性指标有不少,好比Pearson相关系数、Pearson卡方检验、Fisher得分、互信息等。html 目录 信息量 信息熵 条件熵
相关文章
相关标签/搜索