Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

一、新建一个文件夹命名为Solr并在里面建两个文件夹分别命名为home和server。web

二、将下载的Solr包解压进入example的solr文件夹中拷贝其中的内容到刚建的home文件夹中。服务器

三、将example的webapps文件夹中的solr.war包拷贝到刚建的server文件夹中并解压获得。app

四、修改Solr\home\collection1\conf目录下的solrconfig.xml文件。webapp

能够看到solr.data.dir指向刚才见的home文件夹中的data文件夹。咱们须要在home文件夹中建立一个文件夹命名为data用于存放索引。google

五、为Tomcat的Server.xml配置Context,也就是在须要启动Solr应用的Tomcat中的conf目录中的Server.xml配置文件添加Context节点,配置以下:spa

图中画荧光背景的固定写法。code

六、启动Tomcat Solr4.3会报一个错误。如图:server

报不能找到SLF4j logging,能够到Sorl解压包的solr-4.3.0\example\lib\ext目录下把里面五个jar文件拷贝到Solr\server\solr\WEB-INF\lib的目录中,          而后重启Tomcat。xml

七、访问http://localhost:8080/solr 看到了界面:索引

说明Solr跟Tomcat整合成功!

八、整个MMSeg4j中文分词器到Solr中

8.一、下载MMSeg4j并解压把mmseg4j-1.9.1\dist 目录中的三个jar包拷贝到Solr\server\solr\WEB-INF\lib目录中

下载地址:https://code.google.com/p/mmseg4j/

8.二、打开MMSeg4j解压目录中的README.txt文件:

添加README.txt中如上图画方框中的xml内容到Solr\home\collection1\conf\schema.xml文件的types节点中:

并修改最后一项的dicPath为dic

8.三、在Solr/home文件夹中建立dic文件夹,也就是dicPath配置的dic参数

为何要在home目录中建立dic文件夹那,经过MMSeg4j的README.txt文件能够知道:

dicPath 指定词库位置(每一个MMSegTokenizerFactory能够指定不一样的目录,当是相对目录时,是相对 solr.home 的目录)

8.四、拷贝词库到dic目录中,若是你下载的MMSeg4j文件没有data文件夹,能够下载其余的MMSeg4j文件看看,我下载的 mmseg4j-1.9.1就没有data文件                   夹,可是1.8.5版本是包含data文件夹的,把data文件夹中的文件拷贝到dic文件夹中,好了中文分词器就配好了。启动Solr服务器。

8.五、访问启动的Solr的:

分词已经成果了,上面图中咱们选择的textSimple分词器,其实咱们拷贝了三种分词器到schema.xml文件中,分别是:textComplex、

textMaxWord和textSimple,大家能够本身逐个试试。

相关文章
相关标签/搜索