ElasticSearch(二十四)基于scoll技术滚动搜索大量数据

1.为何要使用scroll?性能

若是一次性要查出来好比10万条数据,那么性能会不好,此时通常会采起用scoll滚动查询,一批一批的查,直到全部数据都查询完处理完spa

2.原理code

使用scoll滚动搜索,能够先搜索一批数据,而后下次再搜索一批数据,以此类推,直到搜索出所有的数据来
scoll搜索会在第一次搜索的时候,保存一个当时的视图快照,以后只会基于该旧的视图快照提供数据搜索,若是这个期间数据变动,是不会让用户看到的
采用基于_doc进行排序的方式,性能较高blog

每次发送scroll请求,咱们还须要指定一个scoll参数,指定一个时间窗口,每次搜索请求只要在这个时间窗口内能完成就能够了排序

3.实操it

GET /test_index/test_type/_search?scroll=1m
{
  "query": {
    "match_all": {}
  },
  "sort": [ "_doc" ],
  "size": 3
}
{
  "_scroll_id": "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAACxeFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAAsYBY0b25zVFlWWlRqR3ZJajlfc3BXejJ3AAAAAAAALF8WNG9uc1RZVlpUakd2SWo5X3NwV3oydwAAAAAAACxhFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAAsYhY0b25zVFlWWlRqR3ZJajlfc3BXejJ3",
  "took": 5,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 10,
    "max_score": null,
    "hits": [
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "8",
        "_score": null,
        "_source": {
          "test_field": "test client 2"
        },
        "sort": [
          0
        ]
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "6",
        "_score": null,
        "_source": {
          "test_field": "tes test"
        },
        "sort": [
          0
        ]
      },
      {
        "_index": "test_index",
        "_type": "test_type",
        "_id": "AVp4RN0bhjxldOOnBxaE",
        "_score": null,
        "_source": {
          "test_content": "my test"
        },
        "sort": [
          0
        ]
      }
    ]
  }
}

得到的结果会有一个scoll_id,下一次再发送scoll请求的时候,必须带上这个scoll_idclass

GET /_search/scroll
{
    "scroll": "1m", 
    "scroll_id" : "DnF1ZXJ5VGhlbkZldGNoBQAAAAAAACxeFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAAsYBY0b25zVFlWWlRqR3ZJajlfc3BXejJ3AAAAAAAALF8WNG9uc1RZVlpUakd2SWo5X3NwV3oydwAAAAAAACxhFjRvbnNUWVZaVGpHdklqOV9zcFd6MncAAAAAAAAsYhY0b25zVFlWWlRqR3ZJajlfc3BXejJ3"
}

4.scroll和分页的区别?test

scoll,看起来挺像分页的,可是其实使用场景不同。分页主要是用来一页一页搜索,给用户看的;scoll主要是用来一批一批检索数据,让系统进行处理的原理

相关文章
相关标签/搜索