前面几章把lucene基本入门的任督二脉给打通了,今后篇开始,就开始进行lucene的进阶开发了,那么首先摆在咱们前面的第一个必需要解决的问题,就是关于中文分词的问题,由于lucene毕竟是国外大牛们开发的,显然会比较侧重英文文章,不过还好,在lucene的下载包里同步了SmartCN的分词器针对中文发行的,每一次lucene有新的发行版本,这个包同时更新。
java
笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解以前,咱们首先对lucene里面内置的几个分析器作个了解。
apache
评价一个分词器的性能优劣,关键是看它的切词效率以及灵活性,及扩展性,一般状况下,一个良好的中文分词器,应该具有扩展词库,禁用词库和同义词库,固然最关键的仍是得要与本身的业务符合,由于有些时候咱们用不到一些自定义词库,因此选择分词器就能够不考虑这一点。IK官网发布的最新版IK分词器对于lucene的支持是不错的,可是对已solr的支持就不够好了,须要本身修改源码支持solr4.x的版本。笔者使用的另外一个IK包是通过一些人修改过的能够支持solr4.3的版本。并对扩展词库,禁用词库,同义词库彻底支持,并且在solr里面配置很简单,只须要在schmal.xml进行简单配置,既可以使用IK分词器的强大定制化功能。不过官网上IK做者发布的IK包在lucene里面的确都不支持同义词库扩展的功能,若是你想使用,得须要本身修改下源码了,不过即便本身修改扩展同义词也是很是容易的。
编辑器
下面笔者给出使用官网最后一版发布的IK在lucene中作的测试,笔者使用的已经扩展了同义词库部分,后面会给出源码。
ide
下面先看第一个纯分词的测试:性能
package com.ikforlucene; import java.io.StringReader; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; public class Test { public static void main(String[] args)throws Exception { //下面这个分词器,是通过修改支持同义词的分词器 IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer(); String text="三劫散仙是一个菜鸟"; TokenStream ts=analyzer.tokenStream("field", new StringReader(text)); CharTermAttribute term=ts.addAttribute(CharTermAttribute.class); ts.reset();//重置作准备 while(ts.incrementToken()){ System.out.println(term.toString()); } ts.end();// ts.close();//关闭流 } }
运行结果:
测试
第二步,测试扩展词库,使三劫为一个词,散仙为一个次,须要在同义词库里添加三劫、散仙(注意是按行读取的),注意保存的格式为utf-8或无bom格式便可。(转者注:一、这里是指文字编辑器中文件保存的格式 二、注意所编辑的文件名称:这里是ext.dic)spa
添加扩展词库后运行结果以下:
code
第三步,测试禁用词库,咱们把菜鸟2个字给屏蔽掉,每行一个词,保存格式同上。(转者注:注意所编辑的文件名称:这里是stopword.dic)orm
添加禁用词后运行的结果以下:xml
最后咱们再来测试下,同义词部分,如今笔者把河南人、洛阳人做为"一个"这个词的同义词,添加到同义词库中(笔者在这里仅仅是作一个测试,真正生产环境中的同义词确定是正式的),之一同义词,也是按行读取的,每行的同义词之间使用逗号分隔。
添加同义词库后运行结果以下:
至此,使用IK在lucene4.3中大部分功能都已测试经过,下面给出扩展同义词部分的源码,有兴趣的道友们,能够参考借鉴下。(转者注:下面所给出的源码是没有怎么对同义词进行位置插入等等的转换的)
package com.ikforlucene; import java.io.IOException; import java.io.Reader; import java.util.HashMap; import java.util.Map; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.synonym.SynonymFilterFactory; import org.apache.solr.core.SolrResourceLoader; import org.wltea.analyzer.lucene.IKTokenizer; /** * 能够加载同义词库的Lucene * 专用IK分词器 * * * */ public class IKSynonymsAnalyzer extends Analyzer { @Override protected TokenStreamComponents createComponents(String arg0, Reader arg1) { Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词 Map<String, String> paramsMap=new HashMap<String, String>(); paramsMap.put("luceneMatchVersion", "LUCENE_43"); paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt"); SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap); SolrResourceLoader loader= new SolrResourceLoader(""); try { factory.inform(loader); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } return new TokenStreamComponents(token, factory.create(token)); } }
关于同义词部分的使用,各位道友,能够先去官网上下载源码,而后将此同义词扩展部分方进入便可,很是简单方便。