text retrieval week2

一、TF-IDF加权的向量空间模型 1. TF加权 这里的x,y不再是0,1表示,而是看该词出现的次数 2. IDF加权 M:文档数目 k:包含该词的文档数目 在已TF加权下得到的值再乘以IDF值,即为最终的TF-IDF加权 二、TF变换: 将c(w,d)转换为TF(w,d) 目的:限制高频词的权重 经过不断的尝试,我们获得了鲁棒且有效的次线性TF转换函数,命名为BM25转换 经验表明b=0.75
相关文章
相关标签/搜索