solr中文分词

1.简介

Solr是一个高性能,采用Java5开发,Solr基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,而且提供了一个完善的功能管理界面,是一款很是优秀的全文搜索引擎。由于中文的特殊性,在对中文文档创建全文索引时,须要利用分词工具进行分词。web

目前比较知名的分词工具备:
IK,庖丁等服务器

2.下载

 solr连接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q 
提取码:tuuo app

3.安装

解压文件。webapp

进入bin 启动solr工具

./solr start -p 8984性能

能够在ip:8984端口上查看solr状况优化

关闭solr搜索引擎

./solr stop -allspa

4.中文分词配置

copy ik-analyzer-solr5-5.x.jar to server/solr-webapp/webapp/WEB-INF/libcode

ik-analyzer-solr5-5.x.jar 下载地址:连接:https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg 
提取码:7g7z 

 

/usr/local/solr/solr-5.4.0/server/solr-webapp/webapp/WEB-INF/lib

修改schema.xml

<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" /> </analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" /></analyzer></fieldType>

<field name="docContent" type="text_ik" indexed="true" stored="true" multiValued="true"/>

<field name="docType" type="text_ik" indexed="true" stored="true" multiValued="true"/>

<field name="docName" type="text_ik" indexed="true" stored="true" multiValued="true"/>

重启solr

检测: 进入solr管理页面-->analysis 查看分词结果

相关文章
相关标签/搜索