ES入门宝典（详细截图版）

时间 2019-11-18

标签入门宝典详细截图繁體版

原文原文链接

本文使用版本基于elasticsearch-6.4.0java

一、什么是ES？

官网： https://www.elastic.co/products/elasticsearch linux

中文官网：https://www.elastic.co/cn/products/elasticsearch算法

ES是一个全文检索引擎，提到全文检索，就要说一下如下几个概念：数据库

搜索：寻找想要的信息，根据关键字找到想要的信息。json

倒排索引：反向索引，提取关键字创建索引，不须要所有遍历，提升效率，减小扫描次数。vim

lucene，就是一个jar包里面有倒排索引和一些算法能够基于lucene api进行全文检索的开发，api复杂。windows

了解全文检索，能够关注这篇文章什么是全文检索api

ES也就是Elasticsearch又是什么呢？服务器

封装lucene 提供企业级服务;数据结构

基于Apache lucene构建得开源搜索引擎;

java编写简单易用得RESTFul API;

横向扩展支持PB级的结构化或非结构化数据处理;

ES的功能:

1）分布式的搜索引擎和数据分析引擎。

2）全文检索，结构化检索，数据分析。

3）对海量数据进行近实时的处理。

应用场景：

海量数据的分析引擎;站内搜索引擎;数据仓库。

国外：维基百科，Stack Overflow，GitHub

国内：站内搜索（电商，招聘，门户，等等），IT系统搜索（OA，CRM，ERP，等等），数据分析（ES热门的一个使用场景）

二、主要概念

索引index

逻辑存储至关于关系型数据库的表

每一个索引有一或多个分片（shard）每一个分片有多个副本（replica）

分片shard

单台机器没法存储大量数据，es能够将一个索引中的数据切分为多个shard，分布在多台服务器上存储。有了shard就能够横向扩展，存储更多数据，让搜索和分析等操做分布到多台服务器上去执行，提高吞吐量和性能。每一个shard都是一个lucene index。

副本replica

任何一个服务器随时可能故障或宕机，此时shard可能就会丢失，所以能够为每一个shard建立多个replica副本。replica能够在shard故障时提供备用服务，保证数据不丢失，多个replica还能够提高搜索操做的吞吐量和性能。

文档document

es中的最小数据单元，一个document能够是一条客户数据，一条商品分类数据，一条订单数据，一般用JSON数据结构表示，每一个index下的type中，均可以去存储多个document。一个document里面有多个field，每一个field就是一个数据字段。

面向文档存储

（1）应用系统的数据结构都是面向对象的，复杂的（2）对象数据存储到数据库中，只能拆解开来，变为扁平的多张表，每次查询的时候还得还原回对象格式，至关麻烦（3）ES是面向文档的，文档中存储的数据结构，与面向对象的数据结构是同样的，基于这种文档数据结构，es能够提供复杂的索引，全文检索，分析聚合等功能（4）es的document用json数据格式来表达

映射mapping

文档中的每一个字段根据不一样类型作相应分析。

ES核心概念 vs. 数据库核心概念

索引（indices）-------------Table 数据表

文档（Document）--------Row 行

字段（Field）-------Columns 列

三、安装部署

安装JDK，至少1.8.0_73以上版本

win下部署ES

下载win版本

解压放在d盘

同步命令行启动

C:\Users\JN>d:

D:>cd

D:\elasticsearch-6.4.0>cd bin

D:\elasticsearch-6.4.0\bin>elasticsearch.bat

kibana也是

C:\Users\JN>d:

D:>cd kibana-6.4.0-windows-x86_64

D:\kibana-6.4.0-windows-x86_64>cd bin

D:\kibana-6.4.0-windows-x86_64\bin>kibana.bat

部署成功：能够经过localhost:9200访问es

localhost:5601访问kibana

linux下部署ES

下载linux版本ES

curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.0.tar.gz

新建切换用户

useradd es
passwd es
su es

解压

tar -zxvf elasticsearch-6.4.0.tar.gz

修改配置

cd conf
vim elasticsearch.yml  es配置：集群  日志位置 数据位置  访问限制等等
vim jvm.options   jvm配置

启动

./bin/elasticsearch

9300：集群节点间通信接口

9200：客户端访问接口

访问9200能够看见数据返回

curl localhost:9200

四、简单Restful Api操做

网页访问kibana

localhost:5601 选择 Dev Tools

基本操做

集群健康 GET /_cat/health

1556162587 11:23:07 elasticsearch green 1 1 1 1 0 0 0 0 - 100.0%

查看索引 GET /_cat/indices?v

green open .kibana NHt9dbSkRWaom_Df6cyi6w 1 0 1 0 4kb 4kb

建立索引 PUT /test_index?pretty

删除索引 DELETE /test_index?pretty

CRUD操做

PUT /index/type/id

{

”json数据“

}

例子：

PUT /blog01/article/1
{
	"id": "1",
	"title": "elasticsearch"
	"desc":"elasticsearch"
}

PUT /blog01/article/2
{
	"id": "2,
	"title": "kibana "
	"desc":"kibana "
}

es会自动创建index和type，不须要提早建立，并且es会默认对document的每一个field都创建倒排索引，让其能够被搜索。

查询 GET /blog01/article/1

修改

（替换方式） 替换必须带全部信息
 PUT /blog01/article/1
	{
		"id": "1",
		"title": "elasticsearch"
		"desc":"elasticsearch_new"
	}
（更新方式）
POST /blog01/article/2/_update
{
	"doc": {
     "desc":"elasticsearch_new"
   }		
}

删除 DELETE /blog01/article/1

简单搜索

query string search

search参数http附带

took：整个搜索请求花费了多少毫秒

timed_out：是否超时

_shards：切片

hits.total：本次搜索，返回了几条结果 hits.max_score：本次搜索的全部结果中，最大的相关度分数是多少，每一条document对于search的相关度，越相关，_score分数越大，排位越靠前

GET /blog01/article/_search?q=desc:kibana
{
  "took": 4,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "skipped": 0,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.2876821,
    "hits": [
      {
        "_index": "blog01",
        "_type": "article",
        "_id": "2",
        "_score": 0.2876821,
        "_source": {
          "id": "2",
          "title": "kibana ",
          "desc": "kibana "
        }
      }
    ]
  }
}

query DSL

Domain Specified Language

带json请求体查询

GET /blog01/article/_search
{
  "query": {
    "match_all": {}
  }
}

query filter

bool能够封装多个条件 “must”必须匹配 “filter”过滤

GET /blog01/article/_search
{
  "query" : {
		"bool" : {
          	"must" : {
               "match" :{
                  "desc" : "kibana"
               }
          	}	
		}
	}
}

全文检索 full text search

会根据两个词去倒排索引查找匹配上任意一个就会返回匹配度最高的文档排在前面

GET /blog01/article/_search
{
  "query" : {
               "match" :{
                  "desc" : "kibana test"
               }
	}
}

短语搜索 phrase search

两个词必须都包含

GET /blog01/article/_search
{
  "query" : {
               "match_phrase" :{
                  "desc" : "kibana test"
               }
	}
}

高亮结果 highlight search

GET /blog01/article/_search
{
  "query" : {
               "match" :{
                  "desc" : "kibana"
               }
               
	},
	"highlight":{
                 "fields":{
                   "desc" :{}
                 }
    } 
}

更多ES，Flink，Kafka等实时计算相关博文，欢迎关注实时流式计算：

本文由博客一文多发平台 OpenWrite 发布！