Lucene4.3开发之第四步之脱胎换骨(四)

时间 2019-11-09

标签 lucene4.3 lucene 开发第四繁體版

原文原文链接

前面几章把lucene基本入门的任督二脉给打通了，今后篇开始，就开始进行lucene的进阶开发了，那么首先摆在咱们前面的第一个必需要解决的问题，就是关于中文分词的问题，由于lucene毕竟是国外大牛们开发的，显然会比较侧重英文文章，不过还好，在lucene的下载包里同步了SmartCN的分词器针对中文发行的，每一次lucene有新的发行版本，这个包同时更新。
java

笔者比较推荐的中文分词器是IK分词器，在进入正式的讲解以前，咱们首先对lucene里面内置的几个分析器作个了解。
apache

评价一个分词器的性能优劣，关键是看它的切词效率以及灵活性，及扩展性，一般状况下，一个良好的中文分词器，应该具有扩展词库，禁用词库和同义词库，固然最关键的仍是得要与本身的业务符合，由于有些时候咱们用不到一些自定义词库，因此选择分词器就能够不考虑这一点。IK官网发布的最新版IK分词器对于lucene的支持是不错的，可是对已solr的支持就不够好了，须要本身修改源码支持solr4.x的版本。笔者使用的另外一个IK包是通过一些人修改过的能够支持solr4.3的版本。并对扩展词库，禁用词库，同义词库彻底支持，并且在solr里面配置很简单，只须要在schmal.xml进行简单配置，既可以使用IK分词器的强大定制化功能。不过官网上IK做者发布的IK包在lucene里面的确都不支持同义词库扩展的功能，若是你想使用，得须要本身修改下源码了，不过即便本身修改扩展同义词也是很是容易的。
编辑器

下面笔者给出使用官网最后一版发布的IK在lucene中作的测试，笔者使用的已经扩展了同义词库部分，后面会给出源码。
ide

下面先看第一个纯分词的测试：性能

package com.ikforlucene;

import java.io.StringReader;

import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;


public class Test {
	
	 
	public static void main(String[] args)throws Exception {
                      //下面这个分词器，是通过修改支持同义词的分词器
		  IKSynonymsAnalyzer analyzer=new IKSynonymsAnalyzer();
		   String text="三劫散仙是一个菜鸟";
		   TokenStream ts=analyzer.tokenStream("field", new StringReader(text));
			CharTermAttribute term=ts.addAttribute(CharTermAttribute.class);
			ts.reset();//重置作准备
			while(ts.incrementToken()){
				System.out.println(term.toString());
			}
			ts.end();//
			ts.close();//关闭流
		
		 
	}

}

运行结果：
测试

第二步，测试扩展词库，使三劫为一个词，散仙为一个次，须要在同义词库里添加三劫、散仙（注意是按行读取的），注意保存的格式为utf-8或无bom格式便可。（转者注：一、这里是指文字编辑器中文件保存的格式二、注意所编辑的文件名称：这里是ext.dic）spa

添加扩展词库后运行结果以下：
code

第三步，测试禁用词库，咱们把菜鸟2个字给屏蔽掉，每行一个词，保存格式同上。（转者注：注意所编辑的文件名称：这里是stopword.dic）orm

添加禁用词后运行的结果以下：xml

最后咱们再来测试下，同义词部分，如今笔者把河南人、洛阳人做为"一个"这个词的同义词，添加到同义词库中（笔者在这里仅仅是作一个测试，真正生产环境中的同义词确定是正式的），之一同义词，也是按行读取的，每行的同义词之间使用逗号分隔。

添加同义词库后运行结果以下：

至此，使用IK在lucene4.3中大部分功能都已测试经过，下面给出扩展同义词部分的源码，有兴趣的道友们，能够参考借鉴下。（转者注：下面所给出的源码是没有怎么对同义词进行位置插入等等的转换的）

package com.ikforlucene;

import java.io.IOException;
import java.io.Reader;
import java.util.HashMap;
import java.util.Map;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.synonym.SynonymFilterFactory;
import org.apache.solr.core.SolrResourceLoader;
import org.wltea.analyzer.lucene.IKTokenizer;
/**
 * 能够加载同义词库的Lucene
 * 专用IK分词器
 * 
 * 
 * */
public class IKSynonymsAnalyzer extends Analyzer {

	 
	@Override
	protected TokenStreamComponents createComponents(String arg0, Reader arg1) {
		
		Tokenizer token=new IKTokenizer(arg1, true);//开启智能切词
		
		Map<String, String> paramsMap=new HashMap<String, String>();
		paramsMap.put("luceneMatchVersion", "LUCENE_43");
		paramsMap.put("synonyms", "E:\\同义词\\synonyms.txt");
		SynonymFilterFactory factory=new SynonymFilterFactory(paramsMap);
		 SolrResourceLoader loader=	new SolrResourceLoader("");
		try {
			factory.inform(loader);
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	 
		return new TokenStreamComponents(token, factory.create(token));
	}
	
	
	

}

关于同义词部分的使用，各位道友，能够先去官网上下载源码，而后将此同义词扩展部分方进入便可，很是简单方便。