ElasticSearch中分词器组件配置详解

时间 2019-11-08

原文原文链接

首先要明确一点，ElasticSearch是基于Lucene的，它的不少基础性组件，都是由Apache Lucene提供的，而es则提供了更高层次的封装以及分布式方面的加强与扩展。

因此要想熟练的掌握的关于es中分词方面的知识，必定得先从Lucene抓起，不然只会是丈二和尚摸不着头脑，固然咱们大多数开发者只关注于怎么用，偏底层的东东，也没有太多时间去深究，这也有情可原，遇到问题再去探究，也未尝不是一种办法，若是有时间，仍是建议看看Lucene基础的知识。

在ElasticSearch或Solr中，都提供了基于配置的可插拔式的分词插件，管理方式，这样以来就组合配置方式就很是灵活，在es中，一个analysis集合
能够包含多个analyzer，而一个analyzer则由一个单个的tokenizer，零个或多个的tokenfilter组成，而一个tokenizer又能够包含零个或多个的charFilter。整体的执行流程以下图：

在es里面的一个模板配置以下：

Java代码

index :
analysis ://一个analysis能够包含多个analyzer，tokenizer，filter，char_filter配置
analyzer :// 一个analyzer下面能够包含一个tokenizer，多个filter和char_filter， position_increment_gap是距离查询时，最大容许查询的距离，默认是100
myAnalyzer1 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
myAnalyzer2 :
type : custom
tokenizer : myTokenizer1
filter : [myTokenFilter1, myTokenFilter2]
char_filter : [my_html]
position_increment_gap: 256
tokenizer :
myTokenizer1 :
type : standard
max_token_length : 900
myTokenizer2 :
type : keyword
max_token_length : 900
filter :
myTokenFilter1 :
type : stop
stopwords : [stop1, stop2, stop3, stop4]
myTokenFilter2 :
type : length
min : 0
max : 2000
char_filter :
my_html :
type : html_strip
escaped_tags : [xxx, yyy]
read_ahead : 1024

一个比较完整的分词器配置案例，就如上面的例子，几乎涵盖了全部可能用到的组件，而咱们在实际应用中，要作的就是，选择组合咱们须要的组件，定制成一个分词器，而后就可使用了，
上面的这段配置，咱们须要配置在elasticsearch.yml文件中，全局有效，而后咱们就能够在静态mapping或动态mapping中引用和使用它了。
参考连接：
https://www.elastic.co/guide/en/elasticsearch/reference/2.1/analysis-custom-analyzer.html