lucene排序算法之向量空间模型（二）

时间 2019-11-12

标签 lucene 排序算法向量空间模型繁體版

原文原文链接

在 lucene排序算法之向量空间模型（一）中说明了采用余弦距离而不是欧式距离来度量查询向量与文档向量类似度的缘由，本文主要推导lucene中文档类似度公式：算法

一、令查询向量，文档向量;.net

二、，blog

三、因为用户在输入查询串时，通常不会输入相同的查询词，所以简单设置; 排序

;须要注意的是只有当词都存在于q和d中wn*Wn才不为0。文档

四、查询向量长度，可能你们会认为因为评分时须要比较的是查询向量与文档向量的类似度，查询向量的长度对于全部文档的类似度而言是相同的，所以实际中就能够舍去，但实际并无舍去；get

五、对于文档向量长度，lucene并无采用标准的公式即：|d|=开根号（W1*W1+...+Wn*Wn），而是设置成默认的开根号（词的个数）lucene

六、文档得分score=，实际上当|d|不是标准公式的时候，最终的得分也就不是两个向量的余弦了，所以该公式要换个角度去理解，score=，变成标准的单位查询向量q和非标准的文档向量d的乘积，也就是文档向量d在单位查询向量q的投影长度，这样说明lucene实际上并无把余弦距离看成类似度量，单位查询向量实际上指明了查询的方向，哪一个文档向量在查询向量上的投影长度越长说明就越类似。余弦距离实际是两个单位向量间的乘积，lucene的官方文档中也说明了这一点，咱们也能够当作是其中一个单位向量在另外一个单位向量上的投影长度，不知lucene官方是否这样定义得分公式的，但我的认为可以解释得通。im

注意：这里不是lucene的最终公式，由于尚未考虑各项自定义的权重问题，以及文档向量|d|的实际取值问题，最终公式下一篇给出。d3