2、TF-IDF和BM25

这两者计算的都是文档和文本之间的相似度,如果是两个短文本貌似也可以。 1、TF-IDF = TF * IDF       假设文本是“我怎么这么帅气”,4个词,第一个词“我”, 文档1中一共有10个词,“我”有2次,这个词的词频都是2,这就是TF       第一个词“我”,在所有文档中,有“我”这个词的文档数是m,文档总数是n,则IDF = log(n/(m+1))       所有词叠加就是这
相关文章
相关标签/搜索