数据挖掘 文本分类(七)特征提取

        上一篇咱们作完了词频统计,下面就该提取文本特征了。其实词的频率就是文本最重要的特征了,可是咱们若是只靠词的频率去判断文本的分类的话,显然正确率是很低的。算法         固然,文本的特征提取有不少办法了,我上这门课程老师着重介绍的是TF-IDF和卡方校验两种。spa         咱们先来看IF-IDF的计算方法:blog                 词频(term fr
相关文章
相关标签/搜索