Lucene的文件结构是一个层次结构。
数据库
Lucene文件层次结构包含:spa
若是非要打一个比方:索引
这里的索引至关于数据库中的表,当表中的记录达到必定的量以后,咱们要对表进行分区操做。
文档
这里的段就至关于表的分区。im
也就是说,索引能够分解成多个段。数据
数据表中的记录又保存不一样的分区中内,这里的文档就至关于数据库表中的记录。不一样的文档保存在不一样的段中。img
与表的分区略有不一样的是,这里的段能够合并成一个新段。文件
一个索引包含多个段,每一个段包含一个或多个文档,文档中包含多个域,域能够进行分词划分红一个或多个词元。文章
Lucene索引中保存了正向信息和反向信息。
正向信息:按层次保存了索引到词的包含关系。
索引-段-文档-域-词
一个索引包含哪些段,每一个段包含哪些文档,文档中包含哪些域,域划分红哪些词元。
反向信息:词到文档的映射关系。
在本系列前面的文章(1)中,咱们将这种从词到文档的映射关系,定义为倒排表。经过倒排表,咱们能够看到每个词分别在哪些文档中出现。