Elasticsearch Java Rest Client API 整理总结 (三)——Building Queries

上篇回顾

子曰,温故而知新,能够为师也。学习的过程就是不断的回顾,总结,总结,再总结。首先,一块儿来回顾下上篇 search API中的内容。
为了可以更透彻的理解 rest client search API 的使用,我专门整理了相关对象之间的关系图,一块儿来看下。java

search API 关系图

由上图看出, QueryBuilder 是整个查询操做的核心,决定了查询什么样的数据和指望获得什么结果这些核心的问题。正则表达式

QueryBuilder 只是一个接口,须要具体的实体类才能够。那么如何建立 QueryBuilder 的实例呢?有两种方式算法

  • 经过 QueryBuilder 实现类的构造函数
  • 使用 QueryBuilders 工具类建立

Building Queries

下面就来看下经常使用的查询及其 API 有哪些shell

匹配全部的查询

查询语句以下json

GET /_search
{
    "query": {
        "match_all": {}
    }
}

对应的 QueryBuilder Class 为 MatchAllQueryBuilderapi

具体方法为 QueryBuilders.matchAllQuery()app

全文查询 Full Text Queries

什么是全文查询?

像使用 match 或者 query_string 这样的高层查询都属于全文查询,elasticsearch

  • 查询 日期(date) 或整数(integer) 字段,会将查询字符串分别做为日期或整数对待。
  • 查询一个( not_analyzed )未分析的精确值字符串字段,会将整个查询字符串做为单个词项对待。
  • 查询一个( analyzed )已分析的全文字段,会先将查询字符串传递到一个合适的分析器,而后生成一个供查询的词项列表

组成了词项列表,后面就会对每一个词项逐一执行底层查询,将查询结果合并,而且为每一个文档生成最终的相关度评分。ide

Match

match 查询的单个词的步骤是什么?

  1. 检查字段类型,查看字段是 analyzed, not_analyzed
  2. 分析查询字符串,若是只有一个单词项, match 查询在执行时就会是单个底层的 term 查询
  3. 查找匹配的文档,会在倒排索引中查找匹配文档,而后获取一组包含该项的文档
  4. 为每一个文档评分

构建 Match 查询

match 查询能够接受 text/numeric/dates 格式的参数,分析,并构建一个查询。

GET /_search
{
    "query": {
        "match" : {
            "message" : "this is a test"
        }
    }
}

上面的实例中 message 是一个字段名。

对应的 QueryBuilder class : MatchQueryBuilder

具体方法 : QueryBuilders.matchQuery()

全文查询 API 列表

所有的 API 列表以下(连接均指向 elasticsearch 官网)

Search Query QueryBuilder Class Method in QueryBuilders
Match MatchQueryBuilder QueryBuilders.matchQuery()
Match Phrase MatchPhraseQueryBuilder QueryBuilders.matchPhraseQuery()
Match Phrase Prefix MatchPhrasePrefixQueryBuilder QueryBuilders.matchPhrasePrefixQuery()
Multi Match MultiMatchQueryBuilder QueryBuilders.multiMatchQuery()
Common Terms CommonTermsQueryBuilder QueryBuilders.commonTermsQuery()
Query String QueryStringQueryBuilder QueryBuilders.queryStringQuery()
Simple Query String SimpleQueryStringBuilder QueryBuilders.simpleQueryStringQuery()

基于词项的查询

这种类型的查询不须要分析,它们是对单个词项操做,只是在倒排索引中查找准确的词项(精确匹配)而且使用 TF/IDF 算法为每一个包含词项的文档计算相关度评分 _score

Term

term 查询可用做精确值匹配,精确值的类型则能够是数字,时间,布尔类型,或者是那些 not_analyzed 的字符串。

对应的 QueryBuilder class 是TermQueryBuilder

具体方法是 QueryBuilders.termQuery()

Terms

terms 查询容许指定多个值进行匹配。若是这个字段包含了指定值中的任何一个值,就表示该文档知足条件。

对应的 QueryBuilder class 是 TermsQueryBuilder

具体方法是 QueryBuilders.termsQuery()

Wildcard

wildcard 通配符查询是一种底层基于词的查询,它容许指定匹配的正则表达式。并且它使用的是标准的 shell 通配符查询:

  • ? 匹配任意字符
  • * 匹配 0 个或多个字符

wildcard 须要扫描倒排索引中的词列表才能找到全部匹配的词,而后依次获取每一个词相关的文档 ID。

因为通配符和正则表达式只能在查询时才能完成,所以查询效率会比较低,在须要高性能的场合,应当谨慎使用。

对应的 QueryBuilder class 是 WildcardQueryBuilder

具体方法是 QueryBuilders.wildcardQuery()

基于词项 API 列表

Search Query QueryBuilder Class Method in QueryBuilders
Term TermQueryBuilder QueryBuilders.termQuery()
Terms TermsQueryBuilder QueryBuilders.termsQuery()
Range RangeQueryBuilder QueryBuilders.rangeQuery()
Exists ExistsQueryBuilder QueryBuilders.existsQuery()
Prefix PrefixQueryBuilder QueryBuilders.prefixQuery()
Wildcard WildcardQueryBuilder QueryBuilders.wildcardQuery()
Regexp RegexpQueryBuilder QueryBuilders.regexpQuery()
Fuzzy FuzzyQueryBuilder QueryBuilders.fuzzyQuery()
Type TypeQueryBuilder QueryBuilders.typeQuery()
Ids IdsQueryBuilder QueryBuilders.idsQuery()

复合查询

什么是复合查询?

复合查询会将其余的复合查询或者叶查询包裹起来,以嵌套的形式展现和执行,获得的结果也是对各个子查询结果和分数的合并。能够分为下面几种:

  • constant_score query

    常常用在使用 filter 的场合,全部匹配的文档分数都是一个不变的常量

  • bool query

    能够将多个叶查询和组合查询再组合起来,可接受的参数以下

    • must : 文档必须匹配这些条件才能被包含进来
    • must_not 文档必须不匹配才能被包含进来
    • should 若是知足其中的任何语句,都会增长分数;即便不知足,也没有影响
    • filter 以过滤模式进行,不评分,可是必须匹配
  • dis_max query

    叫作分离最大化查询,它会将任何与查询匹配的文档都做为结果返回,可是只是将其中最佳匹配的评分做为最终的评分返回。

  • function_score query

    容许为每一个与主查询匹配的文档应用一个函数,可用来改变甚至替换原始的评分

  • boosting query

    用来控制(提升或下降)复合查询中子查询的权重。

复合查询列表

Search Query QueryBuilder Class Method in QueryBuilders
Constant Score ConstantScoreQueryBuilder QueryBuilders.constantScoreQuery()
Bool BoolQueryBuilder QueryBuilders.boolQuery()
Dis Max DisMaxQueryBuilder QueryBuilders.disMaxQuery()
Function Score FunctionScoreQueryBuilder QueryBuilders.functionScoreQuery()
Boosting BoostingQueryBuilder QueryBuilders.boostingQuery()

特殊查询

Wrapper Query

这里比较重要的一个是 Wrapper Query,是说能够接受任何其余 base64 编码的字符串做为子查询。

主要应用场合就是在 Rest High-Level REST client 中接受 json 字符串做为参数。好比使用 gson 等 json 库将要查询的语句拼接好,直接塞到 Wrapper Query 中查询就能够了,很是方便。

Wrapper Query 对应的 QueryBuilder class 是WrapperQueryBuilder

具体方法是 QueryBuilders.wrapperQuery()

小结

本文对 elasticsearch rest high client 中的查询构建进行了总结和整理,对经常使用的 API 作了简要的介绍。读者若是要查看完整的构建查询的 API 列表,可参考此处

参考文档

  1. elasticsearch High level client Building Queries

系列文章列表

  1. Elasticsearch Java Rest Client API 整理总结 (一)——Document API
  2. Elasticsearch Java Rest Client API 整理总结 (二) —— SearchAPI
  3. Elasticsearch Java Rest Client API 整理总结 (三)——Building Queries
相关文章
相关标签/搜索