读《深刻理解Elasticsearch》点滴-查询评分

  1. 计算文档得分的因子:
    • 文档权重(document boost):索引期赋予某个文档的权重值
    • 字段权重(field boost):查询期赋予某个文档的权重值
    • 协调因子(coord):基于文档中词项个数的协调因子,一个文档命中率查询中的词项越多,得分越高
    • 逆文档频率(inverse document frequency):一个基于词项的因子,用来告诉评分公式该词项还有多么罕见,评分公式利用该因子,为包含罕见词项的文档加权
    • 长度范数(length norm):每字段的基于词项个数的归一化因子(在索引期间被计算并存储在索引中)。一个字段包含的词项数越多,该因子的权重就越低,意味着lucene的评分公式更”喜欢“包含更少词项的字段。(我的理解:文章越长,用的词汇五花八门,得分较少)
    • 词频(term frequency):一个基于词项的因子,用来表示一个词在某个文档中出现了多少次。词频越高,文档得分越高
    • 查询范数(quern norm):一个基于查询的归一化因子,它等于查询中词项权重的平方和。查询范数使得不一样查询的得分能相互比较,尽管这种比较一般是困难和不可行的。
  2. lucene默认的TF/IDF评分公式,融合了布尔检索模型和向量空间模型。
  3. 更高得分的特色:
    • 越罕见的词项被匹配上
    • 文档字段越短
    • 权重越高(不管是索引期间仍是查询期间赋予的权重值)
  4. 计算公式

相关文章
相关标签/搜索