11_ElasticSearch 基于tie_breaker参数优化dis_max搜索效果

11_ElasticSearch 基于tie_breaker参数优化dis_max搜索效果

更多干货

问题

  • 有些场景不是太好复现的,由于是这样,你须要尝试去构造不一样的文本,而后去构造一些搜索出来,去达到你要的一个效果
  • dis_max,只是取分数最高的那个query的分数而已

可能在实际场景中出现的一个状况是这样的:java

  • 一、某个帖子,doc1,title中包含java(1),content不包含java beginner任何一个关键词
  • 二、某个帖子,doc2,content中包含beginner(1),title中不包含任何一个关键词
  • 三、某个帖子,doc3,title中包含java(1),content中包含beginner(1)
  • 四、以上3个doc的最高score都是1全部最终出来的排序不必定是想要的结果
  • 五、最终搜索,可能出来的结果是,doc1和doc2排在doc3的前面,而不是咱们指望的doc3排在最前面

缘由:python

  • dis_max只取某一个query最大的分数,彻底不考虑其余query的分数

例子

  • 搜索title或content中包含java beginner的帖子
GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java beginner" }},
                { "match": { "body":  "java beginner" }}
            ]
        }
    }
}

tie_breaker 优化 dis_max

使用tie_breaker将其余query的分数也考虑进去git

  • tie_breaker参数的意义,在于说,将其余query的分数,乘以tie_breaker,而后综合与最高分数的那个query的分数,综合在一块儿进行计算
  • 除了取最高分之外,还会考虑其余的query的分数
  • tie_breaker的值,在0~1之间,是个小数,就ok
GET /forum/article/_search
{
    "query": {
        "dis_max": {
            "queries": [
                { "match": { "title": "java beginner" }},
                { "match": { "body":  "java beginner" }}
            ],
            "tie_breaker": 0.3
        }
    }
}
 

相关文章github