Solr配置分词器

时间 2019-11-07

标签 solr 配置分词器繁體版

原文原文链接

1、版本信息测试

solr版本：4.6.0google

须要ik-analyzer版本：IK Analyzer 2012FF_hf1spa

ik-analyzer下载地址：http://code.google.com/p/ik-analyzer/downloads/listcode

2、配置步骤xml

下载压缩解压后获得以下目录结构的文件夹：blog

咱们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。token

咱们把IKAnalyzer.cfg.xml、stopword.dic拷贝到须要使用分词器的core的conf下面，和core的schema.xml文件一个目录。ci

修改core的schema.xml，在<types></types>配置项间加一段以下配置：rem

get

<fieldType name="cn_ik" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

<filter class="solr.LowerCaseFilterFactory" />

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

<filter class="solr.LowerCaseFilterFactory" />

</analyzer>

</fieldType>

咱们就多了一种cn_ik的field类型了，该类型使用的分词器就是ik-analyzer。

咱们在这个core的schema.xml里面配置field类型的时候就能够使用cn_ik了。

<field name="cn_ik" type="cn_ik" indexed="true" stored="true"/>

3、中文分词测试

结果以下:

IKT

text

raw_bytes

start

end

type

position

新

[e6 96 b0]

CN_CHAR

蛋

[e8 9b 8b]

CN_CHAR

信息技术

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

CN_WORD

LCF

text

raw_bytes

position

start

end

type

新

[e6 96 b0]

CN_CHAR

蛋

[e8 9b 8b]

CN_CHAR

信息技术

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

CN_WORD