互信息(Mutual Information)和χ 2特征选择方法去噪处理

特征选择(feature selection)是从训练集合出现的词项中选出一部分子集的过程。 在文本分类过程也仅仅使用这个子集做为特征。 特征选择有两个主要目的: 第一,经过减小有效的词汇空间来提升分类器训练和应用的效率。这对于除NB 以外其余的训练开销较大的分类器来讲尤其重要。 第二,特征选择可以去除噪音特征,从而提升分类的精度。 噪音特征(noise feature)指的是那些加入文本表示以后
相关文章
相关标签/搜索