Elasticsearch查询之term/match解析

时间 2019-11-13 标签 elasticsearch 查询 term match 解析

es种有两种查询模式，一种是像传递URL参数同样去传递查询语句，被称为简单搜索或查询字符串(query string)搜索，好比sql

GET /megacorp/employee/_search //查询所有员工json

GET /megacorp/employee/_search?q=last_name:Smith //查询last_name为Smith的员工restful

另一种是经过DSL语句来进行查询，被称为DSL查询(Query DSL),DSL是Elasticsearch提供的一种丰富且灵活的查询语言，该语言以json请求体的形式出现，经过restful请求与Elasticsearch进行交互，本文主要讲DSL查询的一些经常使用规则，在介绍以前，咱们先简单插入一个测试用的小例子。curl

$curl -XPOST http://localhost:9200/index/doc/1 -d'{"content":"美国留给伊拉克的是个烂摊子吗","title":"标题","tags":["美国","伊拉克","烂摊子"]}'

 $curl -XPOST http://localhost:9200/index/doc/2 -d'{"content":"中国是世界上人口最多的国家","title":"中国","tags":["中国","人口"]}'

 $curl -XPOST http://localhost:9200/index/doc/3 -d'{"content":"同一个世界同一个梦想","title":"北京奥运","tags":["和平"]}'

 $curl -XPOST http://localhost:9200/index/doc/4 -d'{"content":"杭州是一个美丽的城市,欢迎来到杭州","title":"宣传","tags":["旅游","城市"]}'

检查一下咱们的数据是否导入成功elasticsearch

$curl -XGET http://localhost:9200/index/doc/_search测试

{"took":1,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":4,"max_score":1.0,"hits":[{"_index":"index","_type":"doc","_id":"2","_score":1.0,"_source":{"content":"中国是世界上人口最多的国家","title":"中国","tags":["中国","人口"]}},{"_index":"index","_type":"doc","_id":"4","_score":1.0,"_source":{"content":"杭州是一个美丽的城市,欢迎来到杭州","title":"宣传","tags":["旅游","城市"]}},{"_index":"index","_type":"doc","_id":"1","_score":1.0,"_source":{"content":"美国留给伊拉克的是个烂摊子吗","title":"标题","tags":["美国","伊拉克","烂摊子"]}},{"_index":"index","_type":"doc","_id":"3","_score":1.0,"_source":{"content":"同一个世界同一个梦想","title":"北京奥运","tags":["和平"]}}]}}

ok，导入成功，接下来利用这些数据逐步介绍各类经常使用查询url

term查询

term是表明彻底匹配，也就是精确查询，搜索前不会再对搜索词进行分词，因此咱们的搜索词必须是文档分词集合中的一个。好比说咱们要找标题为北京奥运的全部文档rest

$curl -XGET http://localhost:9200/index/doc/_search?pretty -d 
'{
  "query":{
    "term":{
        "title":"北京奥运"
    }
  }
}'

将会获得以下结果code

{
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
    },
    "hits": {
    "total": 1,
    "max_score": 0.92055845,
    "hits": [
     {
        "_index": "index",
        "_type": "doc",
        "_id": "3",
        "_score": 0.92055845,
        "_source": {
           "content": "同一个世界同一个梦想",
           "title": "北京奥运",
           "tags": [
               "和平"
            ]
        }
      }
    ]
  }
}

搜索title包含北京或者奥运的，结果也同样，可是若是你搜索词为京奥,或者北京奥这样的，那么搜索结果将为空索引

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
      "total" : 5,
      "successful" : 5,
      "failed" : 0
  },
  "hits" : {
      "total" : 0,
      "max_score" : null,
      "hits" : [ ]
  }
}

这是由于在对文档创建索引时，会将北京奥运分词为北京，奥运，北京奥运，只要搜索词为这三个之一，均可以将这篇文章搜索出来，而京奥和北京奥并不在分词集合里，因此没法搜索到该文档。若是对于某个字段，你想精确匹配，即搜索什么词匹配什么词，相似sql中的=操做，好比只能经过北京奥运搜索到文档3而不想让北京和奥运也搜索到，那么，你能够在创建索引阶段指定该字段为"index": "not_analyzed",此时，elasticsearch将不会对该字段的值进行分词操做，只保留全文字索引。好比本例子中的tags字段,我在创建索引时设置了"index": "not_analyzed", 搜索时，不论是指定tags为美，仍是国，都没法将第一条结果搜索出来

$curl -XGET http://localhost:9200/index/doc/_search?pretty -d

'{
  "query":{
    "term":{
        "tags":"美"
    }
  }
}'

搜索结果：

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
      "total" : 5,
      "successful" : 5,
      "failed" : 0
  },
  "hits" : {
      "total" : 0,
      "max_score" : null,
      "hits" : [ ]
  }
}

而全词美国却能够

$curl -XGET http://localhost:9200/index/doc/_search?pretty -d 
'{
  "query":{
    "term":{
        "tags":"美国"
    }
  }
}'

搜索结果：

{
    "took" : 2,
    "timed_out" : false,
    "_shards" : {
        "total" : 5,
        "successful" : 5,
        "failed" : 0
    },
    "hits" : {
        "total" : 1,
        "max_score" : 0.30685282,
        "hits" : [ {
            "_index" : "index",
            "_type" : "doc",
            "_id" : "1",
            "_score" : 0.30685282,
            "_source" : {
                  "content" : "美国留给伊拉克的是个烂摊子吗",
                  "title" : "标题",
                  "tags" : [ "美国", "伊拉克", "烂摊子" ]
            }
      } ]
  }
}

match类查询

match查询会先对搜索词进行分词,分词完毕后再逐个对分词结果进行匹配，所以相比于term的精确搜索，match是分词匹配搜索,match搜索还有两个类似功能的变种，一个是match_phrase，一个是multi_match，接下来详细介绍一下 match

前面提到match搜索会先对搜索词进行分词，对于最基本的match搜索来讲，只要搜索词的分词集合中的一个或多个存在于文档中便可，例如，当咱们搜索中国杭州，搜索词会先分词为中国和杭州,只要文档中包含搜索和杭州任意一个词，都会被搜索到

$curl -XGET http://localhost:9200/index/doc/_search?pretty -d

'{
    "query": {
        "match": {
            "content": "中国杭州"
        }
    }
}'

文档3正文中有杭州，文档2中有中国，所以搜索结果有两个，文档3中杭州出现两次，因此排在前面，结果以下：

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
      "total" : 2,
      "max_score" : 0.99999994,
      "hits" : [ {
            "_index" : "index",
            "_type" : "doc",
            "_id" : "4",
            "_score" : 0.99999994,
            "_source" : {
                 "content" : "杭州是一个美丽的城市,欢迎来到杭州",
                "title" : "宣传",
                "tags" : [ "旅游", "城市" ]
            }
       }, {
            "_index" : "index",
            "_type" : "doc",
            "_id" : "2",
            "_score" : 0.8838835,
            "_source" : {
                  "content" : "中国是世界上人口最多的国家",
                  "title" : "中国",
                  "tags" : [ "中国", "人口" ]
            }
       } ]
    }
}

一样的，咱们用match的方式搜索中国世界，那么，文档2(含有中国和世界)和文档3(含有世界都会被搜索出来)。若是咱们仅仅想搜索中国和世界都包含的文档该怎么办呢？其实，对于match搜索，能够按照分词后的分词集合的or或者and进行匹配，默认为or，这也是为何咱们看到前面的搜索都是只要有一个分词出如今文档中就会被搜索出来，一样的，若是咱们但愿是全部分词都要出现，那只要把匹配模式改为and就好了

curl -XGET http://localhost:9200/index/doc/_search?pretty -d 
'{
    "query": {
        "match": {
            "content": {
                "query": "中国世界",
                "operator": "and"
            }
        }
    }
}'

如上所示，查询时将operator设置为and，此时，就只会搜索到既包含中国，也包含世界的文档了(因返回的字段较多，后面搜索结果只展现_source中的内容)

"_source" : {
    "content" : "中国是世界上人口最多的国家",
    "title" : "中国",
    "tags" : [ "中国", "人口" ]
}

match_phrase

match_phrase为按短语搜索，这个可能先用英文来解释会直观一点(中文分词后其实已是一个一个有具体意思的词语)。英文中以空格分词，所以分词后是一个个的单词，当想搜索相似hope so这样的短语时，你或许并不想将一些只含有hope的文档搜索出来，也不想将一些相似I hope ×××. So ××这样的搜索出来，此时，就能够用match_phrase。 match_phrase的搜索方式和match相似，先对搜索词创建索引，并要求全部分词必须在文档中出现(像不像operator为and的match查询)，除此以外，还必须知足分词在文档中出现的顺序和搜索词中一致且各搜索词之间必须紧邻，所以match_phrase也能够叫作紧邻搜索。因此，当咱们搜美国留给时

curl -XGET http://localhost:9200/index/doc/_search?pretty -d

'{
  "query": {
    "match_phrase": {
        "content": "美国留给"
    }
  }
}'

能搜出文档美国留给伊拉克的是个烂摊子吗

"_source" : {
        "content" : "美国留给伊拉克的是个烂摊子吗",
        "title" : "标题",
        "tags" : [ "美国", "伊拉克", "烂摊子" ]
    }

可是咱们搜索留给美国或美国伊拉克时，却没有搜索结果，由于一个顺序不对，一个不是紧邻(隔着留给)。紧邻对于匹配度要求较高，为了减少精度增长可操做性，引入了slop参数。该参数能够指定相隔多少个词仍被算做匹配成功。以下，

curl -XGET http://localhost:9200/index/doc/_search?pretty -d

'{
    "query": {
        "match_phrase": {
            "content": {
                "query": "美国伊拉克",
                "slop": "1"
            }
        }
    }
}'

当咱们将slop设置为1时，文档1已能被搜索到。

"_source" : {
    "content" : "美国留给伊拉克的是个烂摊子吗",
    "title" : "标题",
    "tags" : [ "美国", "伊拉克", "烂摊子" ]
  }

须要注意的是，当slop的值过大时(超出文档总分词数)，那么分词数据将能够是随意的，即跟operator为and的match查询效果同样。好比咱们查询

curl -XGET http://localhost:9200/index/doc/_search?pretty -d

'{
    "query": {
        "match_phrase": {
            "content": {
                "query": "伊拉克美国",
                "slop": "12"
            }
        }
    }
}'

将会获得与上面同样的结果

multi_match

文／木鸟飞鱼（简书做者）原文连接：http://www.jianshu.com/p/eb30eee13923# 著做权归做者全部，转载请联系做者得到受权，并标注“简书做者”。