特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术

 

TFIDF其实是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:若是包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具备很好的类别区分能力。htm

 

TFIDF的主要思想是:若是某个词或短语在一篇文章中出现的频率TF高,而且在其余文章中不多出现,则认为此词或者短语具备很好的类别区分能力,适合用来分类。文档

TF是指在一个文档中出现的词的频率,词的次数初一全部的词数 get

  而IDF是全部的文档中出现该词的次数越多,则权重就越小。。逆向文件频率(inverse document frequency,IDF)是一个词语广泛重要性的度量。某一特定词语的IDF,能够由总文件数目除以包含该词语之文件的数目,再将获得的商取对数获得:文件

最后的相关性的计算 view

,上述相关性计算的公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。。vi

相关文章
相关标签/搜索