Elasticsearch过滤与聚合的前后顺序java实现

时间 2019-11-26

标签 elasticsearch 过滤聚合前后顺序 java 实现栏目日志分析繁體版

原文原文链接

1、Elasticsearch的聚合

ES的聚合至关于关系型数据库里面的group by，例如查找在性别字段男女人数的多少而且按照人数的多少进行排序，在使用MySQL的时候，可使用以下的句子html

select sex,count(*) from table_name group by sex order by count(*)

在ES里面想要实现这种的语句，就叫作聚合，好比这种的聚合使用DSL语句的话以下所示：java

GET /index/type/_search
{
"size" : 0,
"aggs" : {
"agg_sex" : {
"terms" : {
"field" : "sex"
}
}
}
}

这样就能够实现最以上例子中的group by的功能，固然这只是最简单的聚合的使用，在ES里面的聚合有多重多样的，好比说有度量聚合，能够用来计算某一个字段的平均值最大值等，在此给出一个简单的度量聚合的例子数据库

GET /index/type/_search
{
"size" : 0,
"aggs": {
"agg_sex": {
"terms": {
"field": "sex"
},
"agg_age": {
"avg_age": {
"avg": {
"field": "age"
}
}
}
}
}
}

这个DSL语句就是将先按照性别进行聚合，而且对不一样的性别给出一个平均的年龄，使用以后ES的给出结果以下所示：api

{
...
"aggregations": {
"agg_sex": {
"buckets": [
{
"key": "male",
"doc_count": 4,
"avg_age": {
"value": 25
}
},
{
"key": "female",
"doc_count": 2,
"avg_age": {
"value": 23
}
}
]
}
}
...
}

在度量聚合里面有min，max，sum，avg聚合等，还有stats，extern_stats等聚合，其中stats的聚合给出的信息会包括min，max，count等基本的信息，更多详细的细节请参考ES官网给出的指导https://www.elastic.co/guide/en/elasticsearch/guide/current/aggregations.htmlelasticsearch

以上只是给出的度量聚合，可是在实际中咱们常用的是桶聚合，什么是桶聚合呢，我的理解就是将符合某一类条件的文档选出来，全部的某一类的聚合就称为桶，例如你能够按照某一个分类将全部的商品聚合起来，这种状况下就能够认为某一个分类的商品称为一个桶，下面将详细介绍几个经常使用的桶聚合，而且会给出Java使用时候的代码ide

2、桶聚合

桶聚合是在实际使用时候用处比较多的一种聚合，简单的桶聚合包括term聚合，range聚合，date聚合，IPV4聚合等聚合，由于本身使用的仅仅是其中的三个，在此就简单的介绍三个，分别是term聚合，range聚合，以及date聚合函数

一、term聚合

term聚合就是第一部分给出的简单的例子，按照不一样的字段进行聚合post

二、range聚合

range聚合为按照自定义的范围来创造桶，将每个范围的数据进行聚合，而且这个聚合通常适用于字段类型为long或者int，double的字段，能够进行直接的聚合，例如，咱们想统计不一样年龄段的人的个数，DSL以下所示：学习

GET /index/type/_search
{
"aggs" : {
"agg_age" : {
"field":"age"
"ranges" : [
{ "to" : 18},
{ "from" : 19,"to" : 50},
{"from" : 51}
]
}
}
}

三、daterange聚合

date range聚合和range聚合相似，可是所使用的类型是datetime这种类型，使用的时候与range有些区别，给出一个简单的使用date range聚合的DSL例子，以下所示：ui

GET /index/type/_search
{
"aggs" : {
"agg_year" : {
"field":"date"
"ranges" : [
{ "to" : "2008-08-08"},
{ "from" : "2008-08-09","to" : "2012-09-01"},
{"from" : "2012-09-02"}
]
}
}
}

上面的DSL是简单的按照时间格式进行区间的聚合，可是有些时候咱们可能想要一些按照年份聚合或者月份聚合的状况，这个时候应该怎么办呢？在date range里面能够指定日期的格式，例以下面给出一个按照年份进行聚合的例子：

GET /index/type/_search
{
"aggs" : {
"agg_year" : {
"field":"date"
"format":"YYYY",
"ranges" : [
{ "to" : "1970"},
{ "from" : "1971","to" : "2012"},
{"from" : "2013"}
]
}
}
}

咱们能够指定格式来进行聚合

3、对于上述三种聚合java的实现

首先先给出一个具体的使用ES java api实现搜索而且聚合的完整例子，例子中使用的是terms聚合，按照分类id，将全部的分类进行聚合

public void aggsearch() {
init();
SearchResponse response = null;
SearchRequestBuilder responsebuilder = client.prepareSearch("iktest")
.setTypes("iktest").setFrom(0).setSize(250);
AggregationBuilder aggregation = AggregationBuilders
.terms("agg")
.field("category_id")
.subAggregation(
AggregationBuilders.topHits("top").setFrom(0)
.setSize(10)).size(100);
response = responsebuilder.setQuery(QueryBuilders.boolQuery()
.must(QueryBuilders.matchPhraseQuery("name", "中学历史")))
.addSort("category_id", SortOrder.ASC)
.addAggregation(aggregation)// .setSearchType(SearchType.DFS_QUERY_THEN_FETCH)
.setExplain(true).execute().actionGet();
SearchHits hits = response.getHits();
Terms agg = response.getAggregations().get("agg");
System.out.println(agg.getBuckets().size());
for (Terms.Bucket entry : agg.getBuckets()) {
String key = (String) entry.getKey(); // bucket key
long docCount = entry.getDocCount(); // Doc count
System.out.println("key " + key + " doc_count " + docCount);
// We ask for top_hits for each bucket
TopHits topHits = entry.getAggregations().get("top");
for (SearchHit hit : topHits.getHits().getHits()) {
System.out.println(" -> id " + hit.getId() + " _source [{}]"
+ hit.getSource().get("category_name"));
;
}
}
System.out.println(hits.getTotalHits());
int temp = 0;
for (int i = 0; i < hits.getHits().length; i++) {
// System.out.println(hits.getHits()[i].getSourceAsString());
System.out.print(hits.getHits()[i].getSource().get("product_id"));
// if(orderfield!=null&&(!orderfield.isEmpty()))
// System.out.print("\t"+hits.getHits()[i].getSource().get(orderfield));
System.out.print("\t"
+ hits.getHits()[i].getSource().get("category_id"));
System.out.print("\t"
+ hits.getHits()[i].getSource().get("category_name"));
System.out.println("\t"
+ hits.getHits()[i].getSource().get("name"));
}
}
}

以上的例子实现的是按照category_id字段进行分类的聚合，而且将在name字段查找包含“中学历史”的这个词，而且按照category_id进行排序，在此给出的只是一个搜索实现的函数，里面的字段名字，以及index，type等不少字段均为本身定义的index里面的名字，上面给出的是terms聚合时候的代码，若是使用的是range聚合或者date range聚合，只须要改变aggregation就能够

使用range聚合的时候：

aggregation = AggregationBuilders.range("agg")
.field("price").addUnboundedTo(50)
.addRange(51, 100).addRange(101, 1000)
.addUnboundedFrom(1001);

使用date range聚合的时候：

aggregation = AggregationBuilders.dateRange("agg")
.field("date").format("yyyy")
.addUnboundedTo("1970").addRange("1970", "2000")
.addRange("2000", "2010").addUnboundedFrom("2009");

以上全部的聚合均是先过滤搜索，而后对于召回获得的结果进行一个聚合，例如咱们在name字段搜索中学历史这个词，最终获得四个分类分别为1,2,3,4那么聚合的时候就是这四个分类，可是有时候咱们可能会须要对于搜索的结果进行一个过滤，可是咱们不想对聚合的结果进行过滤，那么咱们就要使用一下的部分了

4、先聚合再过滤

以上将的简单的聚合都是先过滤或者搜索，而后对结果进行聚合，可是有时候咱们须要先进行聚合，而后再对结果进行一次过滤，可是咱们不但愿这个时候聚合会发生变化，何时会遇到这种状况呢，咱们以美团为例作一个说明，在主页咱们直接点解美食，获得以下所示的图

点美食以后出现所有的分类，包括各类的菜系，下面咱们点一个具体的菜系

从程序上来讲，咱们点第二次菜系的时候，出现的全部的菜品均是烤串之类的菜品了，可是在分类里面仍是全部的分类都会有，若是按照以前的ES的聚合，会将全部搜索出来的品的分类进行一个聚合，可是点完烤串以后，全部的分类都是烤串了，那么就应该全部的分类只有一个烤串了，不该该有其余的，这样的话确定是不能够的，那么如何才能实现这种聚合的，这个时候咱们就须要先聚合，而后进行再次的过滤，可是过滤的时候并不影响以前的聚合结果，这就是先聚合再过滤，在ES里面也有这种状况的考虑，这个时候使用的是postfilter

postfilter解决了仅仅过滤搜索结果，可是并不影响聚合结果，下面给出一个java使用时候的例子以及比较

函数一为第三部分给出的完整的搜索函数，按照分类聚合

函数二的改变只是对于一的

response = responsebuilder.setQuery(QueryBuilders.boolQuery()
.must(QueryBuilders.matchPhraseQuery("name", "中学历史")))
.addSort("category_id", SortOrder.ASC)
.addAggregation(aggregation)
.setPostFilter(QueryBuilders.rangeQuery("price").gt(1000).lt(5000))
.setExplain(true).execute().actionGet();

添加了按照price进行过滤，最后结果显示，聚合的结果两次彻底同样，可是函数二召回的结果为函数一结果的子集。

5、后续学习

如何屡次的过滤以及召回，好比先过滤后聚合再过滤再次聚合而后再次过滤这种的应该如何实现，须要学习。