lucene4.7 收集器Collector（七）

时间 2019-11-17

标签 lucene4.7 lucene 收集 collector 繁體版

原文原文链接

咱们先来回顾下，一个基本的搜索流程是怎么完成的
1，获得一个索引目录Directory(可能基于内存的或者磁盘的)。
2，获得一个DirectoryReader。
3，实例化查询组件IndexSearcher。
4，检索获得TopDoc查询结果集
5,遍历ScoresDocs处理结果

咱们看下这个检索的流程，大概能够分这5步，前1,2,3算是准备工做，后面的2步是咱们常常须要进行数据处理的地方，那么咱们Collector到底工做在哪一步呢？，其实Collector真正的起做用是在3-4步之间的。

那么Collector的做用是干什么的？为何须要使用Collector？

在这以前先分析下TopDocs这个类，这个类的工做原理，其实在后台使用的也是一个收集器，收收集咱们检索的结果，经过TopDocsCollector这个基类下面的2个子类收集器，来收集一次咱们检索的命中数据。
因此collector的做用就是收集某些咱们须要定制化的结果集，某些状况下使用collector能够能够极大的提高咱们程序的性能，经过collector可让咱们对每个匹配上的文档作一些特有的定制化操做，固然前提是在咱们须要使用的状况下。
下面咱们来看下collector基类的几个方法
java

方法	说明
collect()	检索时，每匹配上一个文档，都会调用此方法
acceptsDocsOutOfOrder()	测试本collector是否能处理无序到达的docid
setScorer(Scorer scorer)	处理检索结果的评分
setNextReader(AtomicReaderContext context)	检索时，在多个索引段结构之间切换的方法

下面咱们来看下自定义的一个collector来实现ScoreDoc类的功能,代码以下.
apache

package com.piaoxuexianjing;

import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.index.AtomicReaderContext;
import org.apache.lucene.search.Collector;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.Scorer;

/**
 * @author
 * @version 1.0
 * 
 * 自定义收集器
 * 实现评分收集
 * **/
public class MyScoreCollector extends Collector {
    //private HashMap<String, String> documents=new HashMap<String, String>();
    List<ScoreDoc> docs=new ArrayList<ScoreDoc>();
    private Scorer scorer;//scorer类
    private int docBase;//全局相对段基数
     

    @Override
    public boolean acceptsDocsOutOfOrder() {
        // TODO Auto-generated method stub
        //返回true是容许无次序的ID
        //返回false必须是有次序的
        return true;
    }

    @Override
    public void collect(int arg0) throws IOException {
        /**
         * 匹配上一个文档
         * 就记录其docid与打分状况
         * 
         * */
        docs.add(new ScoreDoc(arg0+docBase,scorer.score()));//
    }
//    BinaryDocValues names;//字符类型的内置存储
//    BinaryDocValues bookNames;//字符类型的内置存储
//    BinaryDocValues ids;//字符类型的内置存储
//    BinaryDocValues prices;//字符类型的内置存储
//    FieldCache.Doubles d ; //数值类型的内置存储
//    FieldCache.Ints ints;//数值类型的内置存储
    @Override
    public void setNextReader(AtomicReaderContext arg0) throws IOException {
        this.docBase=arg0.docBase;//记录每一个索引段结构的相对位置
    }

    @Override
    public void setScorer(Scorer arg0) throws IOException {
        // TODO Auto-generated method stub
        this.scorer=arg0;//记录改匹配的打分状况
        
    }
}

测试类的核心代码
ide

    //自定义收集器
           MyScoreCollector  scoreCollector=new MyScoreCollector();
          searcher.search(new MatchAllDocsQuery(), scoreCollector);
          /**
           * 自定义的收集类，实现效果===>ScoreDocs类
           * 
           **/
          List<ScoreDoc> s=scoreCollector.docs;
          for(ScoreDoc sc:s){
              System.out.println(sc.doc+"===="+sc.score);
          }

输出结果以下性能

0====1.0
1====1.0
2====1.0
3====1.0
4====1.0
5====1.0
6====1.0
7====1.0

至此，咱们就利用自定义的collector完成了一个简单的收集评分功能，固然咱们能够根据本身的业务，来实现各类各样的collector，灵活运用！
测试