词频计算方法(TF/IDF)

文本分类中,如何定义一个词出现的频率呢?若是仅仅用这个词在文章中出现的次数来定义词频,那么某个词在长文件中的词频通常会大于这个词在短文件中的词频。不能说这个词就是长文件一个好的标识词,为了不这种状况能够使用TF来表示,TF=某词出现次数/总词数。还有像汉语中“的”、“地”、“咱们”等这些词,在文章中出现的频率很高,可是对文章分类的做用几乎没有,因此若是只用TF来定义词频,没法避免此类问题,能够再定
相关文章
相关标签/搜索