文本分类——特征选择概述

内容提要 特征选择概述 常见模型 文档频率(DF) 卡方校验(CHI) 信息增益(IG) 互信息(MI) 特征选择概述   在向量空间模型中,文本能够选择字、词组、短语、甚至“概念”等多种元素表示。这些元素用来表征文本的性质,区别文本的属性,所以这些元素能够被称为文本的特征。在文本数据集上通常含有数万甚至数十万个不一样的词组,如此庞大的词组构成的向量规模惊人,计算机运算很是困难。进行特征选择,对文
相关文章
相关标签/搜索