文本相似度（tf-idf 和 bm25的算法讲解）

时间 2020-12-30

原文原文链接

1.关于tf-idf： (使用tf-idf和向量空间模型) TF：文档 j 中的关键词 i 的归一化词频值描述某一词在一篇文档中出现的频繁程度。（为了阻止更长的文档得到更高的相关度权值，必须进行文档长度的某种归一化） TF=freq(i,j) / maxOthers(i,j) ###(maxxOthers = max(freq(z,j)) IDF : 逆文档频率。降低所有文