读《深刻理解Elasticsearch》点滴-查询评分
- 计算文档得分的因子:
- 文档权重(document boost):索引期赋予某个文档的权重值
- 字段权重(field boost):查询期赋予某个文档的权重值
- 协调因子(coord):基于文档中词项个数的协调因子,一个文档命中率查询中的词项越多,得分越高
- 逆文档频率(inverse document frequency):一个基于词项的因子,用来告诉评分公式该词项还有多么罕见,评分公式利用该因子,为包含罕见词项的文档加权
- 长度范数(length norm):每字段的基于词项个数的归一化因子(在索引期间被计算并存储在索引中)。一个字段包含的词项数越多,该因子的权重就越低,意味着lucene的评分公式更”喜欢“包含更少词项的字段。(我的理解:文章越长,用的词汇五花八门,得分较少)
- 词频(term frequency):一个基于词项的因子,用来表示一个词在某个文档中出现了多少次。词频越高,文档得分越高
- 查询范数(quern norm):一个基于查询的归一化因子,它等于查询中词项权重的平方和。查询范数使得不一样查询的得分能相互比较,尽管这种比较一般是困难和不可行的。
- lucene默认的TF/IDF评分公式,融合了布尔检索模型和向量空间模型。
- 更高得分的特色:
- 越罕见的词项被匹配上
- 文档字段越短
- 权重越高(不管是索引期间仍是查询期间赋予的权重值)
- 计算公式

欢迎关注本站公众号,获取更多信息