文本分类的相关知识

本文章并非完全自己的思想,都是近来所看加总结,记录下来加深自己的理解。 文本分类流程图 特征提取 特征提取=特征项的选择+特征权重的计算。 特征项的选择:根据某个评价指标,独立的对原始特征项(词语)进行评分排序,从中选取一些评分最高的特征项,过滤掉其余的特征项。 特征权重的计算:依据一个词的重要程度,与类别内的词频成正比(代表性),与所有类别中出现的次数成反比(区分度)。 当选用数学方法进行特征提
相关文章
相关标签/搜索