一个用于解析特殊语言文本的analyzer集合。（ arabic,armenian, basque, brazilian, bulgarian, catalan, cjk, czech, danish, dutch, english, finnish, french,galician, german, greek, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian,persian, portuguese, romanian, russian, sorani, spanish, swedish, turkish, thai.）没有中文

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html

8. fingerprint分词器

https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-fingerprint-analyzer.html

中文分词器

1. ik-analyzer

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包.

安装

cd elasticsearch-6.4.2
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.2/elasticsearch-analysis-ik-6.4.2.zip

ik带有两个分词器

ik_max_word: 细粒度分词, 会将文本作最细粒度的拆分.

ik_smart: 粗粒度分词, 会将文本作最粗粒度的拆分.

POST _analyze
{
  "analyzer": "ik_max_word",
  "text": "中华人民共和国国歌"
}

结果
[中华人民共和国, 中华人民, 中华, 华人, 人民共和国, 人民, 共和国, 共和, 国, 国歌]

POST _analyze
{
  "analyzer": "ik_smart",
  "text": "中华人民共和国国歌"
}


结果
[中华人民共和国, 国歌]

2. pinyin分词器

将中文转换为拼音,将拼音进行分词

POST _analyze
{
  "analyzer": "pinyin",
  "text": "李小龙"
}

结果
[li, xiao, logn, lxl]

下载后解压缩

elasticsearch-analysis-pinyin下载网址：github.com/medcl/elast…

查看修改pom.xml文件中对应elasticsearch的版本号

<elasticsearch.version>6.4.2</elasticsearch.version>

在解压缩的文件夹目录下,执行mvn打包命令(没有maven的自行下载):

mvn package

生成target目录, 进入target/releases目录,解压其中的zip压缩包,有以下文件

将这三个文件拷贝到es安装目录下的plugins目录下的pinyin文件夹中（pinyin文件夹须要本身建立，能够任意命名).

重启elasticsearch，拼音分词器到此安装完成。

PUT /pinyinTestIndex
{
    "index" : {
        "analysis" : {                          
            "analyzer" : {                           
               "default" : {                                   //默认分词器使用ik分词器
                     "tokenizer" : "ik_max_word"
               },
               "pinyin_analyzer" : {                           //自定义拼音分词器
                     "tokenizer" : "my_pinyin"
               }
            },
            "tokenizer" : {
                "my_pinyin" : {                                //拼音分词器配置
                    "type" : "pinyin",
                    "keep_first_letter":true,
                    "keep_separate_first_letter" : false,
                    "keep_full_pinyin" : false,
                    "limit_first_letter_length" : 20,
                    "lowercase" : true,
                    "keep_none_chinese":false
                 }
            }
        }
    }
}


keep_first_letter：包含首字母，例如：刘德华> ldh，default：true。
keep_separate_first_letter:将字母分割，例如：刘德华> l，d，h，default：false。
keep_full_pinyin:包含全拼拼音，例如：刘德华> [ liu，de，hua]，default：true。
limit_first_letter_length:设置first_letter结果的最大长度，default：16。
lowercase:小写非中文字母，default：true。
keep_none_chinese: 不在结果中保留非中文字母或数字，default：true。

所以，个人拼音分词器会有以下效果 -- 若是字符串为刘德华，通过分词后成为ldh，若是字符串为刘德华A，通过分词后成为ldha，若是字符串为刘德华1，通过分词后成为ldh1。此种分词效果知足咱们的业务需求，固然还有其余的配置可选，来知足不一样的业务需求。其余配置可参考elasticsearch-analysis-pinyin下载网址中的README.md选项进行选取。

POST /pinyinTestIndex/dev/_mapping 
{
    "dev": {
        "properties": {
            "name": {                                        //name字段
                "type": "text",                              //字符串类型支持分词
                "analyzer": "pinyin_analyzer",               //使用拼音分词
                 "fields": {                                 //包含的另外一种不分词效果
                     "keyword": {                            
                        "type": "keyword",
                        "ignore_above": 256
                    }
                }
            }
        }
    }
}

未完待续.......................

Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

系统默认分词器

1. standard分词器

2. simple分词器

3. stop 分词器

4. whitespace 分词器

5. keyword分词器

6. pattern分词器

7. language分词器

8. fingerprint分词器

中文分词器

1. ik-analyzer

2. pinyin分词器

未完待续.......................