从 Lucene 到 Elasticsearch

时间 2019-12-19

标签 lucene elasticsearch 栏目日志分析繁體版

原文原文链接

做者：靠发型吃饭的柳树算法

原文地址：https://mp.weixin.qq.com/s/223b7xAABBtplpAv5OjAIgsql

食谱的故事

那一年，伦敦，Shay Banon 在找工做，他老婆在烹饪学校学习厨艺。数据库

Shay 发现，老婆天天都要在大量的食谱中找本身想要的那份食谱，因而在找工做之余，开始给老婆作一个食谱搜索的工具。api

市面上的搜索引擎，彷佛没什么选择，只有 Lucene，可是 Lucene 又很难用，因而 Shay 在外面又抽象了一层，屏蔽了 Lucene 底层的复杂逻辑。bash

Shay 开源了这套给老婆搜索食谱用的系统，叫 Compass.restful

后来， Shay 找到了工做，他发现以前写的那套系统，在追求高性能、高可用的生产环境，实在太脆弱，因而又从新写了一套，Compass 也更名为了 Elasticsearch.架构

Shay 在把 Compass 重写为 Elasticsearch 时，面对的问题，其实就是：nosql

你已经拥有了 Lucene，拥有了倒排索引，如何用它们来创造一个，让用户用起来特别爽、又特别可靠的搜索引擎？工具

Now，让咱们跟着 Shay 的脚步，一块儿设计一个高性能高可靠的 Elasticsearch 吧！性能

Shay 如今拥有的一切：

简单画个图：

如今咱们屏蔽 Elasticsearch 的底层实现，其实一个 Elasticsearch 实例对于咱们来讲，就是一个节点，一个能够提供数据搜索和探寻能力的节点：

一开始，里面空空如也，什么都没有。

Mysql 往数据库插入数据以前，须要先建立表，指定字段、主键等等，Elasticsearch 也须要建立“表”。

在 Elasticsearch 的领域语言里，「表」被称为「索引」，「行数据」被称为「文档」。

如今咱们往节点里面定义一个「索引」blog：

PUT /blogs{ "settings" : { "number_of_shards" : 3, "number_of_replicas" : 1 }}复制代码

你会发现，和 Mysql 不一样，咱们并无定义这个“表”里有什么字段，这就是 nosql 的好处，你能够在以后插入的文档里，随时给这个“表”添加新的字段。

咱们定义的是两个配置：

number_of_shards：主分片数。shards，分片，分片有「主分片」和「副本分片」，这里指的是「主分片」，默认是 5 个主分片，这里指定为 3，即 blog 索引的数据，会被分散到 3 个分片里面，起到控制每一个分片里文档数量个数的做用，提供查询和搜索效率，能够理解为 Mysql 里的分表。
number_of_replicas：副本分片数。replicas，副本，也就是上面说的「副本分片」。副本分片只是一个主分片的拷贝，做为硬件故障时保护数据不丢失的冗余备份，并为搜索和返回文档等读操做提供服务。

如今咱们的节点，再也不是空空如也，而是这样：