Elasticsearch 入门教程-Index操做

时间 2019-11-08

原文原文链接

前言：

以前已经说过最近正在作数据建设，爬取数据以后通过处理，最终导入到ElasticSearch中，并编写公共接口以提供给后台进行检索操做；原本想等把ElasticSearch官方API都看过一遍，造成思惟导图以后再整理出来，由于熟悉一个工具，它能作到的，比你知道它能作到的要全面也重要的多，可是整理了两章以后发现，内容真的太多了，这还仅仅只2类。。因此想仍是先把基础用法记录下来，先一步步来了。html

ElasticSearch 简介

Elasticsearch 是一个分布式可扩展的近实时搜索和分析引擎,一个创建在全文搜索引擎 Apache Lucene(TM) 基础上的搜索引擎.固然 Elasticsearch 并不只仅是 Lucene 那么简单，它不只包括了全文搜索功能，还能够进行如下工做:node

分布式实时文件存储，并将每个字段都编入索引，使其能够被搜索。

实时分析的分布式搜索引擎。

能够扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

ElasticSearch 安装

安装比较简单，建议练手阶段安装Kibana，安装步骤参见以前写的博客：ElasticSearch安装数据库

基本概念：

ES是一个近实时的搜索引擎，面向文档型数据库，一条数据就对应一个文档，以JSON格式存储；
全部的操做都是经过rest接口实现，即每个操做都是向ES发送要给rest请求
支持分布式部署，node节点跟slave集群；
shards分片：我的感受相似于关系型数据库的分区分表操做
replicas副本：相似于传统数据库的从表了，ES里是针对每一个shards而言的副本例如：建立index默认为shards为5，replicas为1，则意味着总共有10个shards,5个主5个从；
与传统关系型数据库术语对照表以下：

关系数据库 ⇒ 数据库 ⇒ 表 ⇒ 行 ⇒ 列(Columns) Elasticsearch ⇒ 索引(Index) ⇒ 文档(Docments) ⇒ 字段(Fields)服务器

6.x以后ES建议删除type，由于按照目前理解的type=table，但实际上却并不太同样，ES里同一个index下的多个type字段类型必须一致；可是传统数据库中，一个db里的多个table是能够不同的；具体可看官网：删除type及替代方案目前6.x语法上也仍是支持type，7.x语法就不支持了，因此要习惯理解修改后的模式：

Elasticsearch ⇒ 索引(Index) ⇒ 文档(Docments) ⇒ 字段(Fields)app

建立Index（索引）

既然删除了type，感受将Index理解为table是否是更加合理些。。elasticsearch

建立Index语法以下：分布式

PUT /userinfo?pretty
{
  "mappings": {
    "_doc": { 
      "properties": {
        "name": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word", "fields": {"raw":{"type":"keyword"}}},
        "content": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_max_word"   },
        "org_type": { "type": "keyword"},
        "create_time":{"type":"date", "format": "epoch_second"}
      }
    }
  }
}

若是理解了上面的基本概念的话，这命令看起来应该不难理解，有几点须要提一下：ide

analyzer、search_analyzer：为该字段配置的分词器，
- 中文通常使用ik分词器包括ik_max_word和ik_smart，ik_max_word：会将文本作最细粒度的拆分；尽量多的拆分出词语，ik_smart：会作最粗粒度的拆分；已被分出的词语将不会再次被其它词语占有
type为text的不支持排序，统计等操做，若有排序或统计需求，则需在后面加上**"fields": {"raw":{"type":"keyword"}}**以支持该功能，text 类型的字段，如不指定分词器，ES会默认设置分词器
type为date能够指定转换格式，epoch_second转换为当前时间的秒数 这只是简单经常使用的建立Index的命令，完整的请点击Mapping API

ES会根据值自动建立映射，例如，给usetinfo新增一个age字段，能够直接添加便可：

PUT /userinfo/_doc/1?
{
  "name":"lctest",
  "age":29
}

经过GET /userinfo/_mapping命令查看userinfo最新的字段，能够看到ES默认新增了一个类型为long的age字段。可是通常建议关键字段在建立Index的时候进行指定字段；

{
	  "userinfo": {
		"mappings": {
		  "_doc": {
			"properties": {
			  "age": {
				"type": "long"
			  },
			  "content": {
				"type": "text",
				"analyzer": "ik_max_word"
			  },
			  "create_time": {
				"type": "date",
				"format": "epoch_second"
			  },
			  "name": {
				"type": "text",
				"fields": {
				  "raw": {
					"type": "keyword"
				  }
				},
				"analyzer": "ik_max_word"
			  },
			  "org_type": {
				"type": "keyword"
			  }
			}
		  }
		}
	  }
	}

修改Index

ES不支持对索引中已有的字段进行修改，只能添加字段，添加字段有两种方法，

上面提到的，直接赋值，由ES去建立字段；
手动设置字段，代码以下：

PUT /userinfo/_mapping/_doc
 {
   "properties": {
     "params": {
      "type":     "nested",
      "properties": {
        "update_time":{"type":"date", "format": "epoch_second"}
      }
    }
   }
 }

删除Index

//删除指定索引
  DELETE /userinfo
  //删除多个索引
  DELETE /index1,index2 或者 DELETE /index*
  //删除全部索引
  DELETE /_all 或者 DELETE /*

最基本的索引操做就到此结束，基本上能知足简单的基本需求，下面有一些扩展知识点，能够选择性的使用工具

aliases别名

索引别名就像一个快捷方式或软链接,或者是一个指向，都是最终指的同一个东西，别名带给咱们极大的灵活性，容许咱们作下面这些：ui

在运行的集群中能够无缝的从一个索引切换到另外一个索引
给多个索引分组 (例如， last_three_months)

给索引的一个子集建立视图有两种方式管理别名： _alias用于单个操做， _aliases用于执行多个原子级操做。

建立别名

POST /_aliases
 {
  "actions" : [
      { "add" : { "index" : "test1", "alias" : "alias1" } }
  ]
 }

删除别名

POST /_aliases
 {
  "actions" : [
      { "remove" : { "index" : "test1", "alias" : "alias1" } }
  ]
}

切换索引

POST /_aliases
{
 "actions" : [
     { "remove" : { "index" : "test1", "alias" : "alias1" } },
     { "add" : { "index" : "test2", "alias" : "alias1" } }
 ]
 }

操做单个索引

PUT /{index}/_alias/{name}
  PUT /logs_201305/_alias/2013

以上即是Index别名的基本经常使用语法，完整API详见Aliases API

经常使用命令

查看全部索引信息 GET /_cat/indices?v&pretty
查看某个索引信息 GET /{index}
删除索引单个索引 DELETE /{index}
删除全部索引 DELETE /_all 或者 DELETE /*
删除多个索引： DELETE /index1,index2 或者 DELETE /index*
查看索引的映射 GET /{index}/_mapping
查看某个索引的某个类型的映射 GET /{index}/_mapping/{type}
映射添加新字段 PUT /{index}/_mapping/{type}

禁用通配符

为了防止误操做，形成删库跑路的状况，建议在elasticsearch.yml 作以下配置：action.destructive_requires_name: true 这个设置使删除只限于特定名称指向的数据, 而不容许经过指定 _all 或通配符来删除指定索引库。你一样能够经过 Cluster State API 动态的更新这个设置。

新手推荐使用Kibana工具，带命令提示，很适合不熟悉命令的初学者，我也一直在用，只是博客的话，命令的表现形式感受更好一些