文本挖掘预处理之TF-IDF

一、概念 TF-IDF(Term Frequency-Inverse Document Frequency)即“词频-反文档频率”,主要由TF和IDF两部分组成。TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,是一种统计方法,用于评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要程度与它在文件中出现的次数成正比,但同时与它在语料库中出现的频率成反比。 TF——词频:
相关文章
相关标签/搜索