Lucene4.3开发之第九步之渡劫中期(九)

时间 2019-11-11

标签 lucene4.3 lucene 开发九步中期繁體版

原文原文链接

下图是一个典型的Lucene4.X的索引结构图：
性能

Lucene4.x以后的全部索引格式以下：优化

复合索引文件是指，除了段信息文件，锁文件，以及删除的文件外，其余的一些列索引文件压缩一个后缀名为cfs的文件，意思，就是全部的索引文件会被存储成一个单例的Directory，而非复合索引是灵活的，能够单独的访问某几个索引文件，而复合索引文件啧不能够，由于其压缩成一个文件，因此在某些场景下可以获取更高的效率，好比说，查询频繁，而不常常更新的需求，就很适合这种索引格式。spa

lucene索引的基本概念组成有，索引、文档、域和项组成，一个索引，一般包含一些序列的文档，一个文档(doc)包含一些序列的域(field)，而一些域有包含一些序列的项，而一些项则包含一些序列最底层的字节，注意这里的序列指的是在索引结构中有序，一般有序的这种格式，某些状况下能够优化索引的结构。
设计

lucene使用了倒排索引（Inverted Indexing），来存储索引信息，大大提升了索引效率。索引

倒排索引，举一个通俗的例子，原来基于人们的正常思惟，咱们会存储的是一个文章中出现了那几个单词，而倒排索引，却偏偏相反，它存储的是这个单词，包含在几个文档中，固然这个关系是由倒排链表(存储一些列docid)构成的索引，咱们在检索时，经过这个单词能够快速定位，他出如今几篇文章中，从而大大提高了检索的性能。ci

固然lucene中不单单有倒排索引，也有正向的存储，而倒排之因此是lucene的核心，是由于它提高了检索的性能，在检索到一个个具体的文档时，就须要咱们正向的拿出这些信息，反映在实际的代码中就是咱们经过检索获取的一个个docid，而后经过一个个docid获取整个文档，而后咱们在正向的获取各个域，以及各个项存储的具体信息，固然前提是你存储了这个字段，若是你只是索引而没有存储，那么你只能检索到此条信息，但没法获取具体的term的值，这个须要在建索引以前就要设计好，索引的存储结构，哪些字段是检索的，哪些字段是存储的等等，若是你还须要高亮一些内容，则还须要存储这个域的偏移的位置，经过这样就能准确的在文中标记检索名中的关键词，若是你打算在前台来完成这个高亮，就不要存储这些信息了。文档