Spark机器学习：TF-IDF实现原理

时间 2019-12-07

标签 spark 机器学习 idf 实现原理栏目 Spark 繁體版

原文原文链接

先简单地介绍下什么是TF-IDF(词频-逆文档频率)，它能够反映出语料库中某篇文档中某个词的重要性。假设t表示某个词，d表示一篇文档，则词频TF(t,d)是某个词t在文档d中出现的次数，而文档DF(t,D)是包含词t的文档数目。为了过滤掉经常使用的词组，如"the" "a" "of" "that",咱们使用逆文档频率来度量一个词能提供多少信息的数值： html IDF(t,D)=log(|D|+1

>>阅读原文<<