读《深刻理解Elasticsearch》点滴-查询评分

时间 2019-12-09

标签深刻理解 elasticsearch 点滴查询评分栏目日志分析繁體版

原文原文链接

计算文档得分的因子：
- 文档权重（document boost）：索引期赋予某个文档的权重值
- 字段权重（field boost）：查询期赋予某个文档的权重值
- 协调因子（coord）：基于文档中词项个数的协调因子，一个文档命中率查询中的词项越多，得分越高
- 逆文档频率（inverse document frequency）：一个基于词项的因子，用来告诉评分公式该词项还有多么罕见，评分公式利用该因子，为包含罕见词项的文档加权
- 长度范数（length norm）：每字段的基于词项个数的归一化因子（在索引期间被计算并存储在索引中）。一个字段包含的词项数越多，该因子的权重就越低，意味着lucene的评分公式更”喜欢“包含更少词项的字段。（我的理解：文章越长，用的词汇五花八门，得分较少）
- 词频（term frequency）：一个基于词项的因子，用来表示一个词在某个文档中出现了多少次。词频越高，文档得分越高
- 查询范数（quern norm）：一个基于查询的归一化因子，它等于查询中词项权重的平方和。查询范数使得不一样查询的得分能相互比较，尽管这种比较一般是困难和不可行的。
lucene默认的TF/IDF评分公式，融合了布尔检索模型和向量空间模型。
更高得分的特色：
- 越罕见的词项被匹配上
- 文档字段越短
- 权重越高（不管是索引期间仍是查询期间赋予的权重值）
计算公式