CDH添加solr中文分词

时间 2019-12-19

标签 cdh 添加 solr 中文分词繁體版

原文原文链接

参考别人的文章：http://www.52itstyle.com/thread-2476-1-1.html
html

cdh最难找的就是solr\WEB-INF\lib的位置，因为cdh不是我安装的，也没有配置 SOLR_HOME，因此，我找了好久时间。能够赢find命令找。web

solr自己对中文分词的处理不是太好，因此中文应用不少时候都须要额外加一个中文分词器对中文进行分词处理，ik-analyzer就是其中一个不错的中文分词器。
1、版本信息
solr版本：4.10.0
须要ik-analyzer版本：IK Analyzer 2012FF_hf1

2、配置步骤
下载压缩解压
咱们把IKAnalyzer2012FF_u1.jar拷贝到solr服务的solr\WEB-INF\lib下面。注意：若是是cdh这个路径有变更，个人为：tomcat

/opt/cloudera/parcels/CDH-5.4.4-1.cdh5.4.4.pp0.4/lib/solr/webapps/solr/WEB-INF/lib
app

在高版本的CDH中，位置为：/usr/lib/solr/webapps/solr/WEB-INF/libwebapp

若是不知道jar位置在哪里，能够这样搜搜索： find / -name admin.html
测试

注意：不要把jar上传到这里：/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/libspa

这是tomcat部署的时候的位置，重启后从新从上面两个路径的jar拷贝到/var/lib/solr/tomcat-deployment/webapps/solr/WEB-INF/lib这里，若是你上传到这里，重启solr，jar会消失xml

咱们把IKAnalyzer.cfg.xml、stopword.dic拷贝到须要使用分词器的core的conf下面，和core的schema.xml文件一个目录。
修改core的schema.xml:
htm

<fieldType name="text_ik" class="solr.TextField">
部署
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

配置测试字段：

<field name="quesContent" type="text_ik" />

三：测试配置