IK中文分词_IK分词器配置文件讲解以及自定义词库

一、ik配置文件xml

ik配置文件地址:es/plugins/ik/config目录索引

IKAnalyzer.cfg.xml:用来配置自定义词库
main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一块儿
quantifier.dic:放了一些单位相关的词
suffix.dic:放了一些后缀
surname.dic:中国的姓氏
stopword.dic:英文停用词配置

ik原生最重要的两个配置文件搜索

main.dic:包含了原生的中文词语,会按照这个里面的词语去分词
stopword.dic:包含了英文的停用词plugin

停用词,stopword配置文件

a the and at buttop

通常,像停用词,会在分词的时候,直接被干掉,不会创建在倒排索引中word

二、自定义词库英文

(1)本身创建词库:每一年都会涌现一些特殊的流行词,网红,蓝瘦香菇,喊麦,鬼畜,通常不会在ik的原生词典里dict

本身补充本身的最新的词语,到ik的词库里面去

IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic

补充本身的词语,而后须要重启es,才能生效

(2)本身创建停用词库:好比了,的,啥,么,咱们可能并不想去创建索引,让人家搜索

custom/ext_stopword.dic,已经有了经常使用的中文停用词,能够补充本身的停用词,而后重启es

相关文章
相关标签/搜索