谈谈lucene中的RoaringDocIdSet

时间 2019-11-12

标签谈谈 lucene roaringdocidset 繁體版

原文原文链接

RoaringDocIdSet相似于谈谈BitSet的缺点提到的SparseFixedBitSet是一个用于优化整形序列的存储手段，并按照65536个元素进行分段存储即每段中存储的序列最可能是65536个，每一个分段中的数值都是对65536取模后进行存储的。数组

每一个数据段都有各自的存储格式：优化

一、当每段中的序列个数小于等于4096个时采用short数组进行存储；.net

二、当每段中的序列个数等于65536或者大于65536-4096=61440时保存的是序列的差集，序列的差集正好用short数组进行保存；blog

三、当每段中的序列个数小于等于61440大于4096时采用FixedBitSet进行保存；get

问题1：选用65536为分段中元素的最大个数是由于short的最大值为65535；源码

问题2：为何当每段中的序列个数小于等于4096个时采用short数组进行存储？it

假如该段只有1个数值65535，采用short存储只需2个字节，而采用FixedBitSet就必定是8192个字节，当元素个数大于4096时采用short数值存储占用空间大于8192个字节，然而FixedBitSet最多才占用8192个字节，因此当每段中的序列个数小于等于4096个时采用short数组进行存储。lucene

问题3：在lucene中指出RoaringDocIdSet必须按照顺序对docID进行添加，为何？数据

我的认为是为了节省运行时空间与代码复杂度，假设不按照顺序添加，那么在最后一个元素添加完以前就不能像源码中那样一段一段的处理序列了，必须按照123条件那样检查序列。ps