文本相似度(tf-idf 和 bm25的算法讲解)

1.关于tf-idf: (使用tf-idf和向量空间模型) TF: 文档 j 中的关键词 i 的归一化词频值 描述某一词在一篇文档中出现的频繁程度。 (为了阻止更长的文档得到更高的相关度权值,必须进行文档长度的某种归一化)   TF=freq(i,j) / maxOthers(i,j)      ###(maxxOthers = max(freq(z,j))  IDF : 逆文档频率。 降低所有文
相关文章
相关标签/搜索