《ElasticSearch6.x实战教程》之分词

时间 2019-11-06

标签 elasticsearch6.x elasticsearch 实战教程分词栏目日志分析繁體版

原文原文链接

第四章-分词

下雨天留客天留我不留java

本打算先介绍“简单搜索”，对ES的搜索有一个直观的感觉。但在写的过程当中发现分词不管如何都绕不过去。term查询，match查询都与分词息息相关，索性先介绍分词。git

ES做为一个开源的搜索引擎，其核心天然在于搜索，而搜索不一样于咱们在MySQL中的select查询语句，不管咱们在百度搜索一个关键字，或者在京东搜索一个商品时，经常没法很准确的给出一个关键字，例如咱们在百度但愿搜索“Java教程”，咱们但愿结果是“Java教程”、“Java”、“Java基础教程”，甚至是“教程Java”。MySQL虽然能知足前三种查询结果，但却没法知足最后一种搜索结果。程序员

虽然咱们很难作到对于百度或者京东的搜索（这甚至须要了解Lucene和搜索的底层原理），但咱们能借助ES作出一款不错的搜索产品。github

ES的搜索中，分词是很是重要的概念。掌握分词原理，对待一个不甚满意的搜索结果咱们能定位是哪里出了问题，从而作出相应的调整。json

ES中，只对字符串进行分词，在ElasticSearch2.x版本中，字符串类型只有string，ElasticSearch5.x版本后字符串类型分为了text和keyword类型，须要明确的分词只在text类型。网络

ES的默认分词器是standard，对于英文搜索它没有问题，但对于中文搜索它会将全部的中文字符串挨个拆分，也就是它会将“中国”拆分为“中”和“国”两个单词，这带来的问题会是搜索关键字为“中国”时，将不会有任何结果，ES会将搜索字段进行拆分后搜索。固然，你能够指定让搜索的字段不进行分词，例如设置为keyword字段。app

分词体验

前面说到ES的默认分词器是standard,可直接经过API指定分词器以及字符串查看分词结果。elasticsearch

使用standard进行英文分词：ide

POST http://localhost:9200/_analyze
{
    "analyzer":"standard",
    "text":"hello world" 
}

ES响应：ui

{
    "tokens": [
        {
            "token": "hello",
            "start_offset": 0,
            "end_offset": 5,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "world",
            "start_offset": 6,
            "end_offset": 11,
            "type": "<ALPHANUM>",
            "position": 1
        }
    ]
}

若是咱们对“helloword”进行分词，结果将只有“helloword”一个词，standsard对英文按照空格进行分词。

使用standard进行中文分词：

POST http://localhost:9200/_analyze
{
    "analyzer":"standard",
    "text":"学生" 
}

ES响应：

{
    "tokens": [
        {
            "token": "学",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<IDEOGRAPHIC>",
            "position": 0
        },
        {
            "token": "生",
            "start_offset": 1,
            "end_offset": 2,
            "type": "<IDEOGRAPHIC>",
            "position": 1
        }
    ]
}

“学生”显然应该是一个词，不该该被拆分。也就是说若是字符串中是中文，默认的standard不符合咱们的需求。幸运地是， ES支持第三方分词插件。在ES中的中文分词插件使用最为普遍的是ik插件。

ik插件

既然是插件，就须要安装。注意，版本5.0.0起，ik插件已经不包含名为ik的分词器，只含ik_smart和ik_max_word，事实上后二者使用得也最多。

ik插件安装

ik下载地址（直接下载编译好了的zip文件，须要和ES版本一致）：https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v6.3.2。ik历史版本下载页面：https://github.com/medcl/elasticsearch-analysis-ik/releases。

下载完成后解压elasticsearch-analysis-ik-6.3.2.zip将解压后的文件夹直接放入ES安装目录下的plugins文件夹中，重启ES。

使用ik插件的ik_smart分词器：

POST http://localhost:9200/_analyze
{
  "analyzer":"ik_smart",
  "text":"学生"
}

ES响应：

{
    "tokens": [
        {
            "token": "学生",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        }
    ]
}

这才符合咱们的预期。那么ik插件中的ik_smart和ik_max_word有什么区别呢？简单来说，ik_smart会按照关键字的最粗粒度进行分词，好比搜索“北京大学”时，咱们知道“北京大学”是一个特定的词汇，它并非指“北京的大学”，咱们不但愿搜索出“四川大学”，“重庆大学”等其余学校，此时“北京大学”不会被分词。而ik_max_word则会按照最细粒度进行分词，一样搜索“北京大学”时，咱们也知道“北京”和“大学”都是一个词汇，因此它将会被分词为“北京大学”，“北京大”，“北京”，“大学”，显然若是搜索出现后三者相关结果，这会给咱们带来更多无用的信息。

因此咱们在进行搜索时，经常指定ik_smart为分词器。

有时候一个词并不在ik插件的词库中，例如不少网络用语等。咱们但愿搜索“小米手机”的时候，只出现“小米的手机”而不会出现“华为手机”、“OPPO手机”，但“小米手机”并不在ik词库中，此时咱们能够将“小米手机”添加到ik插件的自定义词库中。

“小米手机”使用ik_smart的分词结果：

{
    "tokens": [
        {
            "token": "小米",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "手机",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}

进入ik插件安装目录elasticsearch-5.6.0/plugins/elasticsearch/config，建立名为custom.dic的自定义词库，向文件中添加“小米手机”并保存。仍然是此目录，修改IKAnalyzer.cfg.xml文件，以下所示：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
        <comment>IK Analyzer 扩展配置</comment>
        <!--用户能够在这里配置本身的扩展字典 -->
        <entry key="ext_dict">custom.dic</entry>
         <!--用户能够在这里配置本身的扩展中止词字典-->
        <entry key="ext_stopwords"></entry>
        <!--用户能够在这里配置远程扩展字典 -->
        <!-- <entry key="remote_ext_dict">words_location</entry> -->
        <!--用户能够在这里配置远程扩展中止词字典-->
        <!-- <entry key="remote_ext_stopwords">words_location</entry> -->
</properties>

重启ES后，再次经过ik_smart对“小米手机”进行分词，发现“小米手机”再也不被分词。

建立映射指定分词器

在建立映射时，咱们能够指定字段采用哪一种分词器，避免咱们在每次搜索时都指定。

建立word索引 PUT http://localhost:9200/word

建立analyzer_demo类型已经定义映射Mapping

PUT http://localhost:9200/word/analyzer_demo/_mapping
{
 "properties":{
     "name":{
         "type":"text",
      "analyzer":"ik_smart"
     }
 }
}

查看word索引结构 GET http://localhost:9200/word

ES响应：

{
    "word": {
        "aliases": {},
        "mappings": {
            "analyzer_demo": {
                "properties": {
                    "name": {
                        "type": "text",
                        "analyzer": "ik_smart"
                    }
                }
            }
        },
        "settings": {
            "index": {
                "creation_date": "1561304920088",
                "number_of_shards": "5",
                "number_of_replicas": "1",
                "uuid": "A2YO9GpzRrGAIm2Q6rCoWA",
                "version": {
                    "created": "5060099"
                },
                "provided_name": "word"
            }
        }
    }
}

能够看到ES在对name字段进行分词时会采用ik_smart分词器。

关注公众号：CoderBuff，回复“es”获取《ElasticSearch6.x实战教程》完整版PDF。

这是一个能给程序员加buff的公众号（CoderBuff）