Spark机器学习:TF-IDF实现原理

先简单地介绍下什么是TF-IDF(词频-逆文档频率),它能够反映出语料库中某篇文档中某个词的重要性。假设t表示某个词,d表示一篇文档,则词频TF(t,d)是某个词t在文档d中出现的次数,而文档DF(t,D)是包含词t的文档数目。为了过滤掉经常使用的词组,如"the" "a" "of" "that",咱们使用逆文档频率来度量一个词能提供多少信息的数值: html IDF(t,D)=log(|D|+1
相关文章
相关标签/搜索