Solr配置分词器

1、版本信息测试

solr版本:4.6.0google

须要ik-analyzer版本:IK Analyzer 2012FF_hf1spa

ik-analyzer下载地址:http://code.google.com/p/ik-analyzer/downloads/listcode

2、配置步骤xml

下载压缩解压后获得以下目录结构的文件夹:blog

咱们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。token

咱们把IKAnalyzer.cfg.xmlstopword.dic拷贝到须要使用分词器的coreconf下面,和coreschema.xml文件一个目录。ci

修改coreschema.xml,在<types></types>配置项间加一段以下配置:rem

<!-- IKAnalyzer -->get

<fieldType name="cn_ik" class="solr.TextField" positionIncrementGap="100">

          <analyzer type="index">

        <tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

                    <filter class="solr.LowerCaseFilterFactory" />

    </analyzer>

    <analyzer type="query">

        <tokenizer class="org.wltea.analyzer.solr.SolrIKAnalyzer" useSmart="true"/>

                    <filter class="solr.LowerCaseFilterFactory" />

    </analyzer>

</fieldType>

 

咱们就多了一种cn_ikfield类型了,该类型使用的分词器就是ik-analyzer

咱们在这个coreschema.xml里面配置field类型的时候就能够使用cn_ik了。

<field name="cn_ik" type="cn_ik" indexed="true" stored="true"/>

3、中文分词测试

结果以下:

IKT

text

raw_bytes

start

end

type

position

[e6 96 b0]

0

1

CN_CHAR

1

[e8 9b 8b]

1

2

CN_CHAR

2

信息技术

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

2

6

CN_WORD

3

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

6

10

CN_WORD

4

LCF

text

raw_bytes

position

start

end

type

[e6 96 b0]

1

0

1

CN_CHAR

[e8 9b 8b]

2

1

2

CN_CHAR

信息技术

[e4 bf a1 e6 81 af e6 8a 80 e6 9c af]

3

2

6

CN_WORD

有限公司

[e6 9c 89 e9 99 90 e5 85 ac e5 8f b8]

4

6

10

CN_WORD

相关文章
相关标签/搜索