《Elasticsearch: The Definitive Guide》读书笔记2

时间 2019-11-17

标签 elasticsearch definitive guide 读书笔记栏目日志分析繁體版

原文原文链接

##Routing a document to a shard shard = hash(routing) % number_of_primary_shards 经过散列函数，计算出document存储的主分片，因此主分片数不能被修改。 routing默认是_id,也能够自定义（传参routing）。mysql

##creating,indexing,deleting a document 可选参数sql

replication 默认是sync，即同步写入主分片后等待写入副本分片成功后才返回。能够设成async，异步写入副本分片，不知道是否成功。不推荐async，容易因异步操做过多而使es过载（overload）。
consistency 默认主分片须要（主和副本分片中的）大多数分片正常运行（active），才能正常执行写操做，这个值称为quorum。 quorum=int((primary + number_of_replicas)/2) + 1 例如，设置副本数是1，那么至少须要2个节点，才能进行写操做。这个参数能够设置 one（只要主分片），all（全部主副分片）或者默认的quorum。
timeout 若是副本分片不足，那么es会等待更多的副本分片出现。默认等待1分钟，这个参数能够设置等待超时时间。

##retrieving a document数组

接收请求的节点会轮流地（round-robin）把请求指向其余拥有目标分片的节点，来达到负载均衡。
一个可能的状况是，当一个document正在索引（indexing），它会先写到主分片，但副本分片尚未同步过去，这时把读请求转发给一个副本分片节点会返回数据不存在。

##searchingapp

GET /_search?timeout=10ms 这里的timeout不会中止查询的执行，而是告诉分片把到timeout为止的数据返回并断开链接，虽然分片已经返回结果可是在后台分片可能仍然在处理查询。负载均衡
GET /index1,index2/type1,type2/_search异步
深分页问题（deep paging） """ GET /_search?size=10&from=10000 """ 也就是搜索10条一页，返回第10001到10010条数据，这时index的每一个分片都须要搜索top 10010条数据，而后合并排序再返回第10001到10010条数据，实际上另外的（number_of_primary_shards * 10010) - 10条数据都只是中间数据，只有10条数据是有效结果，因此搜索成本（cost）很大，应该尽可能避免这样的查询。async
_all Field 当索引一个document时，es会把全部的field的值链接起来组成一个大的字符串（big string），而后做为_all的值，当查询不指定field时，es会使用_all来查询。函数

##分词analysisfetch

对一个string类型的field，es自动分词

##mappingcode

field types
- string
- number:byte,short,integer,long
- float,double
- boolean
- date
string mapping
- index
  - analyzed:分词、默认
  - not_analyzed:不分词
  - no：不索引
- analyzer 分词器，默认standard analyzer
mapping在建立索引的时候指定 """ PUT /index { "mappings":{ "type_name":{ "properties":{ "field":{ "type":"string", "index":"not_analyzed" } } } } } """ mapping中已经存在的field不能被修改，但能够新增field """ PUT /index/_mapping/type_name { "properties":{ "field_new":{ "type":"string", "index":"not_analyzed" } } } """
array 数组的元素的类型必须一致，es会以数组的第一个元素的类型做为这个field的类型，数组是无序的。
Empty field
- null,[],[null]
- 空值的field不会被索引

##Query DSL

performance
- query 找到匹配的document，并且计算相关度_score，不能被cache；用于全文搜索或须要计算相关度的地方。
- filter 仅仅找到匹配的document，不计算相关度没有_score，花费内存1 bit/doc，能够被cache；用于任何不须要相关度的地方。
term filter 精确匹配field """ {"term":{"field":"value"}} """
terms filter 多值精确匹配field """ {"terms":{"field":["value1","value2","value3"]}} """
range,exists,missing,bool
match 可用于全文搜索，也可用于精确搜索。
检验query """ GET /index/type/_validate/query?explain {...} """ explain参数，能够返回错误缘由。

##排序

默认按_score降序；其余field默认升序
{"sort":{"date":{"order":"desc"}}}
多值的field mode:min,max,avg,sum
分词与不分词并存 """ "field":{ "type":"string", "analyzer":"english", "fields":{ "raw":{ "type":"string", "index":"not_analyzed" } } } """ 使用 field.raw
对分词的field排序会很是耗内存
相关度计算 TF/IDF:在一个document的field中的词频/在index的文档中出现的频率
fielddata
- 排序时，es加载整个index的全部document的values到内存，而不只仅是查询到的document。
- 主要用于
  - 一个field的排序
  - 对field的聚合
  - 固定数据集的过滤，好比geolocation filters
  - scripts that refer to fields
- 很是耗内存，尤为是具备不少不一样值的field

##distributed search execution

结果跳跃（bouncing results problem) 由于主从分片同步延迟，使从主分片读和从副本分片读的结果不同。使用preference参数能够控制从哪一个分片或者节点搜索。
timeout 指定等待分片返回结果的时间，若是超时，分片立刻返回已经搜索到的结果。
routing 指定分片路由
search_type
- query_then_fetch 默认
- count 获取统计结果
- query_and_fetch 仅用于单分片，query和fetch做为一步操做
- dfs_query_then_fetch,dfs_query_and_fetch 用于计算相关度
- scan 与scroll API一块儿使用，用于获取大量数据，禁止排序
scan,scroll
- 分批（batch）获取数据，直到取完全部数据，不排序所以高效。
- scroll:相似mysql的浮标cursor
- 用法 """ GET /index/_search?search_type=scan&scroll=1m { "query":{"match_all":{}}, "size":1000 } """ 返回 _scroll_id:base-64 encoded string """ GET /_search/scroll?scroll=1m _scroll_id """
- scroll=1m 这个过时时间每次请求都会刷新，因此只要足够处理一批的数据就行。
- 每批数据条数是 size * number_of_primary_shards
- 每次请求scroll，都会返回一个新的 _scroll_id，下次请求须要带上。