ES 分布式搜索的运行机制

时间 2020-11-18

标签 git github 网络分布式 fetch spa 日志 code blog 排序栏目系统架构繁體版

原文原文链接

ES 有两种 search_type 即搜索类型：git

缺点：因为每一个分片独立使用自身的而不是全局的 Term/Document 频率进行相关度打分，当数据分布不均匀时可能会形成打分误差，从而影响最终搜索结果的相关性。github

dfs_query_then_fetch 与 query_then_fetch 的运行机制很是相似，可是有两点不一样。网络

缺点：太耗费资源，通常仍是不建议使用。分布式

虽然 ES 有两种搜索类型，但通常仍是都用默认的 query_then_fetch 。
当数据量没有足够大的状况下（好比搜索类型数据 20GB，日志类型数据 20-50GB），设置一个 shard 主分片是比较推荐的，只设置一个主分片，你会发现搜索时省掉了好多事情。
不须要文档数据时，使用 _source: false 能够避免请求节点到非本机分片的网络耗时以及读取磁盘文件的耗时。
使用 from + size 分页时，假设你只须要前 10k 条数据里的最后十条，那么每一个分片也会取 10k 条数据，若是你的索引有 5 个主分片，那么汇总时就有 5 * 10k = 50k 条数据，这 50k 条数据是在内存里进行排序和最后的分页的，因此深度分页也是比较吃资源的。