Elasticsearch常见的5个错误及解决策略

时间 2020-08-02

原文原文链接

网罗Elasticsearch最佳实践，实际应用场景中常见错误要预知和避免，以最大化提高集群性能。node

一、采用动态Mapping
若是不定义Mapping，Elasticsearch会根据输入的数据，建立对应的Mapping，这看起来很是完美，可是Elasticsearch的动态Mapping并不老是精确的。
动态Mapping对于入门颇有用，但在某些时候您须要结合业务数据指定Mapping。网络

举例1：5.x版本以后，须要分词的字段须要设定text类型和对应的analyzer ；仅须要精确匹配的可直接设置为keyword类型。
举例2：长文本高亮须要在text类型的基础上，设置fast-vector-highlighter高亮方式，高亮效率能提高20倍以上。多线程

二、聚合设置不当致使OOM
在某些聚合中，没有足够的内存来支持复杂的嵌套聚合，致使聚合结果超时甚至OOM。app

举例说明：elasticsearch

现有9亿条数据，45个索引，每条数据大小为2k左右在查询时候，
首先要按照时间进行排序，而后作三次分组操做？
https://elasticsearch.cn/question/6323ide

群友讨论实际问题性能

聚合爆炸是计算问题，可能致使某些聚合的桶生成呈指数增加，并可能致使不受控制的内存使用。测试

Elasticsearch“terms”字段根据您的数据构建存储桶，但没法预测将提早建立多少存储桶。对于由多个子聚合组成的父聚合，这可能会有问题。组合每一个子聚合中的惟一值可能会致使建立的桶数量大幅增长。优化

咱们来看一个例子。线程

假设您有一个表明运动队的数据集。若是你想特别关注那支球队的前10名球员和以及他们的支持球员，那么聚合将以下所示

1{
2"aggs" : {
3"play_aggs" : {
4"terms" : {
5"field" : "players",
6"size" : 10
7},
8"aggs" : {
9"other_aggs" : {
10"terms" : {
11"field" : "players",
12"size" : 5
13}
14}
15}
16}
17}
18}

聚合将返回前10名球员的列表以及每位顶级球员的前五名支持球员的列表 - 这样总共将返回50个值。这个看上去简单的查询能够垂手可得地消耗大量内存。

terms聚合能够显示为使用每一个级别的桶的树。所以，以上聚合中每一个顶级球员的桶将构成第一级，而另外一个聚合中的每一个支持球员的桶将构成第二级。所以，一个团队将生产n²桶。想象一下，若是您拥有5亿个文档的数据集会发生什么。

Collection Mode用于帮助控制子聚合的执行方式。聚合的默认Collection Mode称为深度优先，首先须要构建整个树，而后修剪边缘。虽然深度优先是大多数聚合的适当收集模式，但它不适用于上面的运动员聚合示例。所以，Elasticsearch容许您将特定聚合中的收集模式更改成更合适的方式。

诸如上面的示例之类的规范应该使用广度优先收集模式，该模式一次构建和修剪树一级以控制聚合爆炸。此收集模式极大地帮助减小消耗的内存量并保持节点稳定。

1{
2"aggs" : {
3"play_aggs" : {
4"terms" : {
5"field" : "players",
6"size" : 10,
7"collect_mode" : "breadth_first"
8},
9"aggs" : {
10"other_aggs" : {
11"terms" : {
12"field" : "players",
13"size" : 5
14}
15}
16}
17}
18}
19}