Elasticsearch 分享 --- 基础篇

时间 2020-09-25

标签 elasticsearch 分享基础栏目日志分析繁體版

原文原文链接

【理论部分】

1、什么是Elasticsearch？

首先Elasticsearch 是一个基于Lucene的搜索服务器，而 Lucene是一个基于java开发的全文检索引擎的架构。

下面是官网对Elaticsearch的介绍：

Actionable Insight at Your Fingers

Distributed, scalable, and highly available

Real-time search and analytics capabilities

Sophisticated RESTful API

咱们能够看到上面描述es的一些特性：具有分布式能力和相应功能，实时搜索和分析，支持如今流行的RESTful 架构风格。而分布式让他对大数据也能很好的支持，对 RESTful 的支持让任何语言均可以访问。

因此我对它的理解是：

一个采用Restful API标准的高扩展性和高可用性的实时数据分析的全文搜索工具。

2、Elasticsearch的用途

上面也提到了，elasticsearch的主语是全文搜索工具，因此他就是干全文搜索用的。

下面是一些使用案例：

i) Githubjava

“Github使用Elasticsearch搜索20TB的数据，包括13亿的文件和1300亿行的代码”node

这个不用介绍了吧，码农们都懂的，Github在2013年1月升级了他们的代码搜索，由solr转为elasticsearch，目前集群规模为26个索引存储节点和8个客户端节点（负责处理搜索请求），详情请看官方博客https://github.com/blog/1381-a-whole-new-code-searchpython

ii) Mozilla

Mozilla公司以火狐著名，它目前使用 WarOnOrange 这个项目来进行单元或功能测试，测试的结果以 json的方式索引到elasticsearch中，开发人员能够很是方便的查找 bug。
Socorro是Mozilla 公司的程序崩溃报告系统，一有错误信息就插入到 Hbase和Postgres 中，而后从 Hbase中读取数据索引到elasticsearch中，方便查找。mysql

http://blog.itpub.net/attachment/201403/14/16907020_1394762149yiIp.png

3、Elasticsearch 名词解释

i) 在数据层面主要有：

Index：Elasticsearch用来存储数据的逻辑区域，它相似于关系型数据库中的db概念。一个index能够在一个或者多个shard上面，同时一个shard也可能会有多个replicas。（必须小写）
Document：Elasticsearch里面存储的实体数据，相似于关系数据中一个table里面的一行数据。

document由多个field组成，不一样的document里面同名的field必定具备相同的类型。document里面field能够重复出现，也就是一个field会有多个值，即multivalued。（ 区分大小写）

Document type：为了查询须要，一个index可能会有多种document，也就是document type，但须要注意，不一样document里面同名的field必定要是相同类型的。至关于数据库里的一个表。（区分大小写，且里面的field也区分大小写）
Document id : 惟一，至关于数据库主键。
Mapping：存储field的相关映射信息，不一样document type会有不一样的mapping。

ii) 在服务层面主要有：linux

Node: 一个server实例。
Cluster：多个node组成cluster。
Shard：数据分片，一个index可能会存在于多个shards，不一样shards可能在不一样nodes。
Replica：shard的备份，有一个primary shard，其他的叫作replica shards。

【实践部分】

4、Elasticsearch 的安装部署启动

一些基本的认识咱们都有了，下面就开始实践了，因为es通常都是运行在linux里的，咱们如今就在linux下部署一个elasticsearch服务（特别须要注意的，elasticsearch1.x 和 2.x 有很是大的区别，我下面讲的都是2.x的）：

一、环境

elasticesearch依赖java环境，须要jre7以上。

二、下载

https://www.elastic.co/downloads/elasticsearch

在官网下载tar.gz格式压缩包

三、解压安装

elasticesearch只须要解压就行，解压到相应目录

 
      [boss@localhost ~]$ mkdir elasticesearch 
     
      [boss@localhost ~]$ cd elasticesearch/ 
     
      [boss@localhost elasticesearch]$ tar xzf elasticsearch-2.3.5.tar.gz

四、启动

启动的时候最好添加jvm参数 ./elasticsearch -Xms512m -Xmx512m

 
      [boss@localhost elasticesearch]$ cd bin/ 
     
      [boss@localhost bin]$ ./elasticsearch

五、问题

测试环境是在公司虚拟机上，jdk 1.7.0_45，启动报错，须要升级jdk，貌似是jvm的bug。

在官网上看到这么一句话须要java 8 update 20 for later, or java 7 update 55 or later version.不然有bug.,甚至致使数据丢失。

至于windows下的安装部署启动在这就不介绍了，具体请看另一篇《Elasticesearch在Windows的安装运行》

关于elasticsearch集群：只要在相同是host下，且配置文件中的cluster.name相同的节点，就会组成一个集群

5、Elasticsearch 目录、配置信息解释

i) 安装的目录布局以下: git

Type github	Description sql	Default Location 数据库	Setting json
home	elasticsearch 安装目录		path.home
bin	二进制脚本，包括elasticsearch启动节点	{path.home}/bin
conf	配置文件路径，包含elasticsearch.yml	{path.home}/config	path.conf
data	在节点上每一个索引/碎片的数据文件的位置。能够有多个目录。	{path.home}/data	path.data
work	零时文件目录（工做目录）	{path.home}/work	path.work
logs	日志文件目录	{path.home}/logs	path.logs

若是有多个数据目录，能够容许使用数据分拆技术，将数据可以按照设置放在不一样的磁盘上。这个分拆原来是很简单的，只是保证一个文件完整的存在一个地方，具体是若是选择存在那个磁盘上是经过 index.store.distributor来配置的：

least_used（默认）：老是选择可用空间最大的目录。
random：随机选择的目录。选择一个特定的目录的几率，是与这个目录中可用空间量成正比。

注意,在相同的数据上没有多个副本,在这一点上,它的相似 raid 0。虽然简单,可是它应该提供一个好的解决方案,对于不想使用 raid的人。

ii) 配置文件

Elasticsearch的配置文件在 conf 目录下，有两个.yml文件，一个是elasticsearch.yml，另外一个是logging.yml。

其中 elasticsearch.yml是对 elasticsearch的配置； logging.yml是对 elasticsearch日志的配置，也就是对log4j的配置。

咱们这里讲 elasticsearch.yml，文件中都比较详细的英文解释，因此我就说说比较重要的几个配置：

cluster.name: 　　 elasticsearch自然具有集群能力，因此这里就有一个集群名称配置，默认为elasticsearch，最好修改下。
node.name: 节点名称，也就是集群中的各个节点的名称，也须要配置，方便之后管理和java api开发
network.host: 容许访问的host，能够是ipv4也能够是ipv6形式，在es2.x下若是不配，那么就只能localhost访问了。
http.port： http端口号，用于restful、插件的访问端口，默认9200，不能重复
transport.tcp.port: 通信端口，java api 访问的就是这个端口，默认9300，不能重复
discovery.zen.ping.unicast.hosts: 这个是集群启动的时候，默认发现的主机列表，而后经过这里的host再去发现别的节点，须要至少配置一个，否则好像有点问题，我在集群搭建的时候就由于没配置遇到一些意外状况。
discovery.zen.minimum_master_nodes: 最小的master选举人数，默认为2，这种形式计算(total number of nodes /2+1)
discovery.zen.ping.multicast.enabled: 自动发现节点开关，若是为false,则新加入的节点不会被发现。
discovery.zen.ping.timeout: 自动发现超时时间。

6、Elasticsearch插件安装

一、head插件：

对于Elasticsearch这种为分布式集群而生的，没有一个管理工具的话，会无从下手，因此咱们须要安装一些插件来辅助，经典的插件是 head插件，marvel插件。其中marvel插件是对开发者免费，另外好像要收费，并且我没安装成功过... 因此咱们使用head插件。

在杭州的同事能够访问 http://10.10.100.104:9200/_plugin/head/ 来查看，界面以下:

alpha-application为集群名称

集群健康值：分为绿、黄、红。绿是表示正常；黄色表示部分异常，能够搜索，可是增删改备份什么的会有异常，数据会丢失；红色表示连搜索也不行了。

上面一个集群有两个节点，分别是node-alpha-0、node-alpha-1。其中node-alpha-0为master。

上面有5个index，每一个index都有5个分片。

二、 analysis-ik插件：

首先得介绍一个概念：在检索数据中，有一个概念 analysis，中文为分词。

好比一句话 I want to a be a bird。若是不分词，那么每一个字母都是搜索的关键词。这样就没法搜索了。es默认有分词，可是它对英文分词支持很好，对中文就很烂了。

好比 “我国是发展中国家”，es 对他的分词就是每一个汉字，这固然不行，理想的分词是我国、是、发展、发展中、国家。

所以咱们须要 ik 插件，ik插件对中文分词有很好的支持。

安装步骤：

一、下载相应版本的ik。 https://github.com/medcl/elasticsearch-analysis-ik

二、由于下载的是源代码，使用maven编译，方法是在cd 到解压目录下 mvn package 编译

三、步骤和解压 target/releases/elasticsearch-analysis-ik-{version}.zip 到 your-es-root/plugins/ik

四、重启elasticsearch。这点很重要，我就由于没有重启折腾了一上午。

三、analysis-ik-pinyin插件：

说完了中文分词插件，不可避免的须要拼音插件了，analysis-ik-pinyin这个插件是我找了好久以为比较好的中文拼音插件。

安装插件须要将 elasticsearch-analysis-lc-pinyin的源码本身maven build出来，这样能够避免版本冲突

git 地址： http://git.oschina.net/music_code_m/elasticsearch-analysis-lc-pinyin。

如今网上没有找到有关2.X的插件安装和配置介绍，我摸索了好久才完成，这里记录下：

编译安装：

首先是build源码，使用将目录切到相应目录，个人是：

 
      cd F:\software\elasticsearch-analysis-lc-pinyin-dev_2.2.2\elasticsearch-analysis-lc-pinyin 
     

而后执行maven build命令(固然，前提是你安装了maven，并配置好环境变量)

mvn package

而后就等待他的编译，完成时会在..\elasticsearch-analysis-lc-pinyin\target\releases目录下生产一个zip，咱们只需将这个zip解压到elasticsearch的plugin目录下便可。

配置使用：

lc 2.x是不须要在 elasticsearch.yml里配置的，咱们只须要重启 elasticsearch实例便可。

关键就是在于使用上mapping和DSL的配置。

因为elasticsearch 1.x和2.x改动很大，因此我这里直接贴2.x的mapping配置了：

 
      curl -XPUT http://localhost:9200/addr  
     
 
      curl -XPOST http://localhost:9200/addr/std/_mapping -d'  
     
 {
  "std": {
    "properties": {
      "detail_name": {
        "type": "string",
        "analyzer": "lc_index",
        "search_analyzer": "lc_search",
        "fields": {
          "cn": {
            "type": "string",
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_max_word"
          }
        }
      },
      "door_name": {
        "type": "string",
        "analyzer": "lc_index",
        "search_analyzer": "lc_search",
        "fields": {
          "cn": {
            "type": "string",
            "analyzer": "ik_max_word",
            "search_analyzer": "ik_max_word"
          }
        }
      }
    }
  }
}'

主要问题是在于，1.x是 index_analyzer 为 lc_index ，可是2.x 没有了 index_analyzer 这个参数。

接下来就和1.x差很少了。

四、sql插件：

这个插件可让不熟悉curl命令的人使用sql语句查询。

具体方法就不介绍了，github里都有： https://github.com/NLPchina/elasticsearch-sql/

五、elasticsearch-jdbc插件：

这是一个数据库（mysql/oracle...）和 elasticsearch 同步的插件，而且支持实时同步（可是不一样步物理删除的数据）。

https://github.com/jprante/elasticsearch-jdbc

下载安装相应版本便可。

不过它的同步是经过脚本实现的，linux为.sh，windows下为.bat。

须要说明的是，该插件提供了mysql的样例，oracle的没有提供，下面是我写的oracle的脚本，因为不是很熟悉linux命令，有些参数没有使用到。

#!/bin/sh
# This example is a template to connect to Oracle
# The JDBC URL and SQL must be replaced by working ones.
DIR="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
bin=${DIR}/../bin
lib=${DIR}/../lib
JAVA_HOME="/opt/java/jdk1.8.0_101"
echo '
{
    "type" : "jdbc",
    "jdbc" : {
        "url" : "jdbc:oracle:thin:@//***.***.***.***:1521/***",
        "connection_properties" : {
            "oracle.jdbc.TcpNoDelay" : false,
            "useFetchSizeWithLongColumn" : false,
            "oracle.net.CONNECT_TIMEOUT" : 10000,
            "oracle.jdbc.ReadTimeout" : 50000
        },
        "user" : "pboss",
        "password" : "******",
        "sql" : "select std_addr_id as \"_id\",std_addr_id as \"std_addr_id\", name as \"door_name\", detail_name as \"detail_name\" from addr_std_addr",
        "index" : "addr",
        "type" : "std",
        "elasticsearch" : {
            "cluster" : "alpha-application",
            "host" : "10.10.100.104",
            "port" : 9300
        },
        "max_bulk_actions" : 20000,
        "max_concurrent_bulk_requests" : 10,
        "index_settings" : {
            "index" : {
                "number_of_shards" : 1,
                "number_of_replica" : 0
            }
        }
    }
}
' | ${JAVA_HOME}/bin/java \
    -cp "${lib}/*" \
    -Dlog4j.configurationFile=${bin}/log4j2.xml \
    org.xbib.tools.Runner \
    org.xbib.tools.JDBCImporter

上面的url即 jdbc驱动的url，user 和password 是相应数据库的登陆名密码。

上面的脚本是一次性同步，实时同步须要加如一些参数。

        "interval":            "1800", 这里是同步数据的频率 1800s，半小时，能够按须要设成 1s或其它
        "schedule" :           "0 0/60 0-23 ? * *",   同步数据任务  60分钟一次
        "flush_interval" :     "5s",    刷新间隔为5S

具体关于这个插件的使用，请看《elasticsearch-jdbc 插件说明》