Lucene4.3开发之第七步之合体后期(七)

    本篇要写的是关于Lucene里面Collector这个东西,暂且称他为收集器吧,先看下Lucene内置的Collector类的继承图。
java

咱们先来回顾一下,一个基本的搜索流程是怎么完成的:
apache

一、获得一个索引目录的Directory(可能基于内存的或者磁盘的);ide

二、获得一个DirectoryReader;性能

三、实例化查询组件IndexSearch;
测试

四、检索获得TopDoc查询结果集;this

五、遍历ScoresDocs处理结果。spa

前一、二、3算是准备工做,后面的2步是咱们常常须要进行数据处理的方法,那么咱们Collector到底工做在哪一步呢?其实Collector真正的起做用是在3~4之间的。
code

那么Collector的做用是干什么的?为何须要使用Collector?继承

    在这以前先分析下TopDocs这个类,这个类的工做原理,其实在后台使用的也是一个收集器,搜集咱们检索的结果,经过TopDocsCollector这个基类下面的2个子类收集器,来收集一次咱们检索的命中数据。
索引

    因此collector的做用就是收集某些咱们须要定制化的结果集,某些状况下使用collector科室极大地提高咱们程序的性能,经过collector可让咱们对每个匹配上的文档作一些特有的定制化操做,固然前提是在咱们须要使用的状况下。

下面是collector基类的几个方法:

下面咱们来看下自定义的一个collector来实现ScoreDoc类的功能,代码以下:

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
 * @author 三劫散仙
 * @version 1.0
 * 
 * 自定义收集器
 * 实现评分收集
 * **/
public class MyScoreCollector extends Collector {
	//private HashMap<String, String> documents=new HashMap<String, String>();
	List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
	private Scorer scorer;//scorer类
	private int docBase;//全局相对段基数
	 

	@Override
	public boolean acceptsDocsOutOfOrder() {
		// TODO Auto-generated method stub
		//返回true是容许无次序的ID
		//返回false必须是有次序的
		return true;
	}

	@Override
	public void collect(int arg0) throws IOException {
		/**
		 * 匹配上一个文档
		 * 就记录其docid与打分状况
		 * 
		 * */
		docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
	}
//	BinaryDocValues names;//字符类型的内置存储
//	BinaryDocValues bookNames;//字符类型的内置存储
//	BinaryDocValues ids;//字符类型的内置存储
//	BinaryDocValues prices;//字符类型的内置存储
//	FieldCache.Doubles d ; //数值类型的内置存储
//	FieldCache.Ints ints;//数值类型的内置存储
	@Override
	public void setNextReader(AtomicReaderContext arg0) throws IOException {
		this.docBase=arg0.docBase;//记录每一个索引段结构的相对位置
	}

	@Override
	public void setScorer(Scorer arg0) throws IOException {
		// TODO Auto-generated method stub
		this.scorer=arg0;//记录改匹配的打分状况
		
	}

}

测试类的核心代码

    //自定义收集器
    MyScoreCollector  scoreCollector=new MyScoreCollector();
    searcher.search(new MatchAllDocsQuery(), scoreCollector);
    /**
    * 自定义的收集类,实现效果===>ScoreDocs类
    * **/
    List<ScoreDoc> s=scoreCollector.docs;
        for(ScoreDoc sc:s){
            System.out.println(sc.doc+"===="+sc.score);
        }

输出结果

0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0

至此,咱们就利用自定义的collector完成了一个简单的收集评分功能,固然咱们能够根据本身的业务,来实现各式各样的collector。

相关文章
相关标签/搜索