TF-IDF原理及使用

1、什么是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率) 简单来说:一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表本篇文章。 词频(term frequency,TF)指一个词语在该文件中出现的次数。这个数字通常会被归一化---词频除以文章总词数。 注意:一些通用的词语对于主题并没有太大
相关文章
相关标签/搜索