lucene4.7 分页(五)

  咱们先来看下下面的问题,如今咱们的索引里有2亿多的数据,那么如今的需求是,把索引里的所有数据,读取而后写入txt文本里,对于这么一个量级的数据,显然是不可能一会儿所有读取完的,那得要多大的内存才可以支持下来,是一个很恐怖的内存量,因此就引入散仙今天要给你们介绍的一个功能,Lucene的分页技术。 


介绍分页以前,咱们先来看看上面的那个需求,不用分页的解决办法, 
其实在lucene里面,每个索引都会对应一个不重复的docid,而这一点跟Oralce数据库的伪列rownum同样,偏偏正是因为这个docid的存在,因此让lucene在海量数据检索时从而拥有更好的性能,咱们都知道Oracle数据库在分页时,使用的就是伪列进行分页,那么个人lucene也是同样,既然有一个docid的存在,那么上面的需求就很简单了
 

方法一:依次根据每一个docid获取文档而后写入txt中,这样的以来,就避免了内存不足的缺点,可是这样单条读取的话,速度上可能会慢一点,但能知足需求无可厚非。伪代码以下
java

    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
        for(int i=0;i<reader.numDocs();i++){//numDocs可能很大
         Document doc=search.doc(i);//依次获取每一个docid对应的Document
        //能够在此部,作个批量操做,加快写入速度
        }  
        
         reader.close();//关闭资源
         directory.close();//关闭链接
        
        }catch(Exception e){
            e.printStackTrace();
        }

Lucene的分页,总的来讲有两种形式,总结以下图表格。(若是存在不合适之处,欢迎指正!)
数据库

编号 方式 优势 缺点
1 在ScoresDocs里进行分页 无需再次查询索引,速度很快 在海量数据时,会内存溢出
2 利用SearchAfter,再次查询分页 适合大批量数据的分页 再次查询,速度相对慢一点,但能够利用缓存弥补
从上图咱们能够分析出,ScoreDocs适合在数据量不是很大的场景下进行分页,而SearchAfter则都适合,因此,咱们要根据本身的业务需求,合理的选出适合本身的分页方式。 

在咱们了解这2中分页技术的优缺点以后,咱们再来探讨下上面那个读2亿数据存入txt文本里,在这里,SocreDocs不适合这种场景,固然若是你内存足够大的话,能够尝试下,通用分页分批读取的方式,能够提高咱们的写入效率,效果是比单条单条读取的速度是要快不少的。虽然ScoresDocs的分页方式在本需求上不适合,可是做为示例,下面散仙给出使用ScoreDocs进行分页的代码:

    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
        
 
         TopDocs all=search.search(new MatchAllDocsQuery(), 50000);
         int offset=0;//起始位置
         int pageSize=30;//分页的条数
         int total=30;//结束条数
         int z=0;
         while(z<=50){//总分页数
         System.out.println("==============================");
         pageScoreDocs(offset,total,search, all.scoreDocs);//调用分页打印
         offset=(z*pageSize+pageSize);//下一页的位置增量
         z++;//分页数+1;
             total=offset+pageSize;//下一次的结束分页量
         }
         reader.close();//关闭资源
         directory.close();//关闭链接
        
        }catch(Exception e){
            e.printStackTrace();
        }
public void pageScoreDocs(int offset,int total,IndexSearcher searcher,ScoreDoc[] doc) throws Exception{
        //System.out.println("offset:"+offset+"===>"+total);
        for(int i=offset;i<total;i++){
            //System.out.println("i"+i+"==>"+doc.length);
            if(i>doc.length-1){//当分页的长度数大于总数就中止
                
                break;
            }else{
        
               Document dosc=searcher.doc(doc[i].doc);
               System.out.println(dosc.get("name"));
           
            }
        }

最后咱们来看下使用SearcherAfter进行分页的方式,代码以下:
缓存

    try{
        directory=FSDirectory.open(new File(indexReadPath));//打开索引文件夹
        IndexReader  reader=DirectoryReader.open(directory);//读取目录
        IndexSearcher search=new IndexSearcher(reader);//初始化查询组件
        
         int pageStart=0;
         ScoreDoc lastBottom=null;//至关于pageSize
         while(pageStart<10){//这个只有是paged.scoreDocs.length的倍数加一才有可能翻页操做
             TopDocs paged=null;
             paged=search.searchAfter(lastBottom, new MatchAllDocsQuery(),null,30);//查询首次的30条
             if(paged.scoreDocs.length==0){
                 break;//若是下一页的命中数为0的状况下,循环自动结束
             }
             page(search,paged);//分页操做,此步是传到方法里对数据作处理的
             
             pageStart+=paged.scoreDocs.length;//下一次分页总在上一次分页的基础上
             lastBottom=paged.scoreDocs[paged.scoreDocs.length-1];//上一次的总量-1,成为下一次的lastBottom
         }
         reader.close();//关闭资源
         directory.close();//关闭链接
        
        }catch(Exception e){
            e.printStackTrace();
        }

至此,咱们已经了解了lucene中的分页技术,至于,咱们在项目中该如何使用,都要根据咱们的实际状况处理,由于分页技术经常会跟其余的,排序,过滤,评分等一些技术结合使用。

性能

相关文章
相关标签/搜索