Elasticsearch 快速入门教程

时间 2019-11-22

原文原文链接

面向文档

应用中的对象不多只是简单的键值列表，更多时候它拥有复杂的数据结构，好比包含日期、地理位置、另外一个对象或者数组。数据库

总有一天你会想到把这些对象存储到数据库中。将这些数据保存到由行和列组成的关系数据库中，就好像是把一个丰富，信息表现力强的对象拆散了放入一个很是大的表格中：你不得不拆散对象以适应表模式（一般一列表示一个字段），而后又不得不在查询的时候重建它们。数组

Elasticsearch是面向文档(document oriented)的，这意味着它能够存储整个对象或文档(document)。然而它不只仅是存储，还会索引(index)每一个文档的内容使之能够被搜索。在Elasticsearch中，你能够对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。这种理解数据的方式与以往彻底不一样，这也是Elasticsearch可以执行复杂的全文搜索的缘由之一。数据结构

JSON

ELasticsearch使用Javascript对象符号(JavaScript Object Notation)，也就是JSON，做为文档序列化格式。JSON如今已经被大多语言所支持，并且已经成为NoSQL领域的标准格式。它简洁、简单且容易阅读。ui

如下使用JSON文档来表示一个用户对象：spa

{
    "email": "john@smith.com",
    "first_name": "John",
    "last_name": "Smith",
    "info": {
        "bio": "Eco-warrior and defender of the weak",
        "age": 25,
        "interests": [ "dolphins", "whales" ]
　　},
    "join_date": "2014/05/01"
}

尽管原始的 user 对象很复杂，但它的结构和对象的含义已经被完整的体如今JSON中了，在Elasticsearch中将对象转化为JSON并作索引要比在表结构中作相同的事情简单的多。命令行

开始第一步

咱们如今开始进行一个简单教程，它涵盖了一些基本的概念介绍，好比索引(indexing)、搜索(search)以及聚合(aggregations)。经过这个教程，咱们可让你对Elasticsearch能作的事以及其易用程度有一个大体的感受。rest

咱们接下来将陆续介绍一些术语和基本的概念，但就算你没有立刻彻底理解也没有关系。咱们将在本书的各个章节中更加深刻的探讨这些内容。code

因此，坐下来，开始以旋风般的速度来感觉Elasticsearch的能力吧！对象

让咱们创建一个员工目录

假设咱们恰好在Megacorp工做，这时人力资源部门出于某种目的须要让咱们建立一个员工目录，这个目录用于促进人文关怀和用于实时协同工做，因此它有如下不一样的需求：blog

数据可以包含多个值的标签、数字和纯文本。
检索任何员工的全部信息。
支持结构化搜索，例如查找30岁以上的员工。
支持简单的全文搜索和更复杂的短语(phrase)搜索
高亮搜索结果中的关键字
可以利用图表管理分析这些数据

索引员工文档

咱们首先要作的是存储员工数据，每一个文档表明一个员工。在Elasticsearch中存储数据的行为就叫作索引(indexing)，不过在索引以前，咱们须要明确数据应该存储在哪里。

在Elasticsearch中，文档归属于一种类型(type),而这些类型存在于索引(index)中，咱们能够画一些简单的对比图来类比传统关系型数据库：

Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields

Elasticsearch集群能够包含多个索引(indices)（数据库），每个索引能够包含多个类型(types)（表），每个类型包含多个文档(documents)（行），而后每一个文档包含多个字段(Fields)（列）。

「索引」含义的区分

你可能已经注意到索引(index)这个词在Elasticsearch中有着不一样的含义，因此有必要在此作一下区分:

索引（名词）如上文所述，一个索引(index)就像是传统关系数据库中的数据库，它是相关文档存储的地方，index的复数是indices 或indexes。
索引（动词）「索引一个文档」表示把一个文档存储到索引（名词）里，以便它能够被检索或者查询。这很像SQL中的 INSERT 关键字，差异是，若是文档已经存在，新的文档将覆盖旧的文档。
倒排索引传统数据库为特定列增长一个索引，例如B-Tree索引来加速检索。Elasticsearch和Lucene使用一种叫作倒排索引(inverted index)的数据结构来达到相同目的。

默认状况下，文档中的全部字段都会被索引（拥有一个倒排索引），只有这样他们才是可被搜索的。

咱们将会在倒排索引章节中更详细的讨论。

因此为了建立员工目录，咱们将进行以下操做：

为每一个员工的文档(document)创建索引，每一个文档包含了相应员工的全部信息。
每一个文档的类型为 employee 。
employee 类型归属于索引 megacorp 。
megacorp 索引存储在Elasticsearch集群中。

实际上这些都是很容易的（尽管看起来有许多步骤）。咱们能经过一个命令执行完成的操做：

PUT /megacorp/employee/1
{
    "first_name" : "John",
    "last_name" : "Smith",
    "age" : 25,
    "about" : "I love to go rock climbing",
    "interests": [ "sports", "music" ]
}

咱们看到path: /megacorp/employee/1 包含三部分信息：

名字	说明
megacorp	索引名
employee	类型名
1	这个员工的ID

请求实体（JSON文档），包含了这个员工的全部信息。他的名字叫“John Smith”，25岁，喜欢攀岩。

很简单吧！它不须要你作额外的管理操做，好比建立索引或者定义每一个字段的数据类型。咱们可以直接索引文档，Elasticsearch已经内置全部的缺省设置，全部管理操做都是透明的。

接下来，让咱们在目录中加入更多员工信息：

PUT /megacorp/employee/2
{
    "first_name" : "Jane",
    "last_name" : "Smith",
    "age" : 32,
    "about" : "I like to collect rock albums",
    "interests": [ "music" ]
}

PUT /megacorp/employee/3
{
    "first_name" : "Douglas",
    "last_name" : "Fir",
    "age" : 35,
    "about": "I like to build cabinets",
    "interests": [ "forestry" ]
}

检索文档

如今Elasticsearch中已经存储了一些数据，咱们能够根据业务需求开始工做了。第一个需求是可以检索单个员工的信息。

这对于Elasticsearch来讲很是简单。咱们只要执行HTTP GET请求并指出文档的“地址”——索引、类型和ID既可。根据这三部分信息，咱们就能够返回原始JSON文档：

GET /megacorp/employee/1

响应的内容中包含一些文档的元信息，John Smith的原始JSON文档包含在 _source 字段中。

{
    "_index" : "megacorp",
    "_type" : "employee",
    "_id" : "1",
    "_version" : 1,
    "found" : true,
    "_source" : {
        "first_name" : "John",
        "last_name" : "Smith",
        "age" : 25,
        "about" : "I love to go rock climbing",
        "interests": [ "sports", "music" ]
    }
}

咱们经过HTTP方法 GET 来检索文档，一样的，咱们可使用 DELETE 方法删除文档，使用 HEAD 方法检查某文档是否存在。若是想更新已存在的文档，咱们只需再 PUT 一次。

简单搜索

GET 请求很是简单——你能轻松获取你想要的文档。让咱们来进一步尝试一些东西，好比简单的搜索！

咱们尝试一个最简单的搜索所有员工的请求：

GET /megacorp/employee/_search

你能够看到咱们依然使用 megacorp 索引和 employee 类型，可是咱们在结尾使用关键字 _search 来取代原来的文档ID。响应内容的 hits 数组中包含了咱们全部的三个文档。默认状况下搜索会返回前10个结果。

{
    "took": 6,
    "timed_out": false,
    "_shards": {...
    },
    "hits": {
        "total": 3,
        "max_score": 1,
        "hits": [{
            "_index": "megacorp",
            "_type": "employee",
            "_id": "3",
            "_score": 1,
            "_source": {
                "first_name": "Douglas",
                "last_name": "Fir",
                "age": 35,
                "about": "I like to build cabinets",
                "interests": ["forestry"]
            }
        },
        {
            "_index": "megacorp",
            "_type": "employee",
            "_id": "1",
            "_score": 1,
            "_source": {
                "first_name": "John",
                "last_name": "Smith",
                "age": 25,
                "about": "I love to go rock climbing",
                "interests": ["sports", "music"]
            }
        },
        {
            "_index": "megacorp",
            "_type": "employee",
            "_id": "2",
            "_score": 1,
            "_source": {
                "first_name": "Jane",
                "last_name": "Smith",
                "age": 32,
                "about": "I like to collect rock albums",
                "interests": ["music"]
            }
        }]
    }
}

接下来，让咱们搜索姓氏中包含“Smith”的员工。要作到这一点，咱们将在命令行中使用轻量级的搜索方法。这种方法常被称做查询字符串(query string)搜索，由于咱们像传递URL参数同样去传递查询语句：

GET /megacorp/employee/_search?q=last_name:Smith

咱们在请求中依旧使用 _search 关键字，而后将查询语句传递给参数 q= 。这样就能够获得全部姓氏为Smith的结果：

{...
　　"hits": {
        "total": 2,
        "max_score": 0.30685282,
        "hits": [
　　　　 　　{...
　　　　　　　　  "_source": {
                　　"first_name": "John",
                　　"last_name": "Smith",
                　　"age": 25,
                　　"about": "I love to go rock climbing",
                　　"interests": ["sports", "music"]
            　　}
        　　},
        　　{...
　　　　　　　　  "_source": {
                　　"first_name": "Jane",
                　　"last_name": "Smith",
                　　"age": 32,
                　　"about": "I like to collect rock albums",
                　　"interests": ["music"]
            　　}
        　　}]
    }
}

使用DSL语句查询

查询字符串搜索便于经过命令行完成特定(ad hoc)的搜索，可是它也有局限性（参阅简单搜索章节）。Elasticsearch提供丰富且灵活的查询语言叫作DSL查询(Query DSL),它容许你构建更加复杂、强大的查询。

DSL(Domain Specific Language特定领域语言)以JSON请求体的形式出现。咱们能够这样表示以前关于“Smith”的查询:

GET /megacorp/employee/_search
{
    "query" : {
        "match" : {
        "last_name" : "Smith"
        }
    }
}

这会返回与以前查询相同的结果。你能够看到有些东西改变了，咱们再也不使用查询字符串(query string)作为参数，而是使用请求体代替。这个请求体使用JSON表示，其中使用了 match 语句（查询类型之一，具体咱们之后会学到）。

更复杂的搜索

咱们让搜索稍微再变的复杂一些。咱们依旧想要找到姓氏为“Smith”的员工，可是咱们只想获得年龄大于30岁的员工。咱们的语句将添加过滤器(filter),它使得咱们高效率的执行一个结构化搜索：

GET /megacorp/employee/_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "range" : {
                    "age" : { "gt" : 30 }  <1>
                }
            },
            "query" : {
                "match" : {
                    "last_name" : "smith"  <2>
                }
            }
        }
    }
}

<1> 这部分查询属于区间过滤器(range filter),它用于查找全部年龄大于30岁的数据—— gt 为"greater than"的缩写。
<2> 这部分查询与以前的 match 语句(query)一致。

如今不要担忧语法太多，咱们将会在之后详细的讨论。你只要知道咱们添加了一个过滤器(filter)用于执行区间搜索，而后重复利用了以前的 match 语句。如今咱们的搜索结果只显示了一个32岁且名字是“Jane Smith”的员工：

{
　　...
　　"hits": {
　　　　"total": 1,
　　　　"max_score": 0.30685282,
　　　　"hits": [
　　　　　　{
　　　　　　　　...
　　　　　　　　"_source": {
　　　　　　　　　　"first_name": "Jane",
　　　　　　　　　　"last_name": "Smith",
　　　　　　　　　　"age": 32,
　　　　　　　　　　"about": "I like to collect rock albums",
　　　　　　　　　　"interests": [ "music" ]
　　　　　　　　}
　　　　　　}
　　　　]
　　}
}

全文搜索

到目前为止搜索都很简单：搜索特定的名字，经过年龄筛选。让咱们尝试一种更高级的搜索，全文搜索——一种传统数据库很难实现的功能。

咱们将会搜索全部喜欢“rock climbing”的员工：

GET /megacorp/employee/_search
{
　　"query" : {
　　　　"match" : {
　　　　　　"about" : "rock climbing"
　　　　}
　　}
}

原文：https://es.xiaoleilu.com/

PDF：https://pan.baidu.com/s/1o8MbG7o