使用lucene来遍历ES中的文档数据

时间 2019-11-11

标签使用 lucene 遍历文档数据繁體版

原文原文链接

es 1.7.5 中使用的是lucene 4.10, 经过研究其数据结构, 明确其嵌套格式(nested)文档结构. 对于一个分片(目录)中的数据,是一个lucene索引结构,所以能够经过使用lucene api来读取这一个目录中的数据.实际上,在一个lucene索引结构中,不只有倒排表还有顺序结构.所以咱们能够经过某种方式来获取这个目录下面的全部文档完成遍历操做.java

顺序结构的文档在lucene4.10中的组织是有规律的,文档id从0开始递增,前排文档的子文档,而后排其子文档对应的主文档. 若是索引子文档的field字段设置store为true.则在子文档所对应的doc id上能够相关值,不然须要在source字段中获取,至于如何解析source字段,本篇文章不作解释.api

首先获取fields,而后针对某一个term(_uid)来获取全部文档(每一个主文档都有一个惟一的uid).而后根据上面表述的特性就能够获取全部文档相关信息,进行相关处理.若是文档中涉及到删除的操做,须要加载删除数据的集合,而后将文档id进行过滤,剔除掉删除的记录.数据结构

Directory directory = FSDirectory.open(new File(path));
        Lucene40LiveDocsFormat lldf = new Lucene40LiveDocsFormat();
        IOContext context = IOContext.READ;
        SegmentInfos sifs = new SegmentInfos();
        sifs.read(directory);
        Iterator<SegmentCommitInfo> its = sifs.iterator();
        List<Bits> bitss = new ArrayList<Bits>();
        while (its.hasNext()) {
            SegmentCommitInfo info = its.next();
            if (info.hasDeletions())
                bitss.add(lldf.readLiveDocs(directory, info, context));
        }
        // directory.
        IndexReader r = IndexReader.open(directory);
        IndexSearcher is = new IndexSearcher(r);
        Fields fields = MultiFields.getFields(r);
        System.out.println(fields.size());
        Iterator<String> it=fields.iterator();
        while(it.hasNext()){
            System.out.println(it.next());
        }
        System.out.println(fields.terms("commus.interactionIdx").getDocCount());
       
        int count = fields.terms("_uid").getDocCount();
        System.out.println(count);
        for (int i = 0; i < count; i++) {
            Document doc = is.doc(i);
            System.out.println(doc.getFields());
            System.out.println(doc.getField("callId"));
        }
        r.close();