Lucene4.3开发之第三步之温故知新(三)

时间 2019-11-21

标签 lucene4.3 lucene 开发第三步温故知新繁體版

原文原文链接

本篇就对lucene的基本知识进行一个总结，以便于加深对lucene基本api组件的理解。
数据库

一、IndexWriter：是索引过程的核心类，主要负责建立索引或者打开已有索引，提供索引的增删改等操做。api

二、IndexWriterConfig：这个api在低版本的lucene中是没有此配置类的，这个类也比较重要，使用此类则须要在其构造方法中传入2个参数，第一个参数是lucene当前的版本号，第二个是索引使用的分词器，除了这个咱们最经常使用的功能，里面还提供了大量工具方法，例如，设置内存里缓冲大小，以及是否开启复合索引的等等一系列，能够对索引作一些基本的配置优化等信息。数组

三、Directory：这个类表明了lucene索引的存放位置，是一个抽象类，它有一系列子类能够用来处理索引，使用不一样的子类对于系统的性能，影响会很大，但归其本质上，提高性能，无非就拿空间换时间，或拿时间换空间两种状况，在具体使用时，咱们可使用其子类来获取索引所在的存储路径，而后将其传给IndexWriter类构造方法里。工具

四、Analyzer：这个类也是全部分析器的基类，文本文件在索引前，须要通过分析器处理，处理成对的语汇单元，统一格式，它能提取有效的信息，过滤掉一些禁用词。lucene自带有几个分析器，但大部分都是对英文或欧洲语言处理的，若是想要使用中文的分词器，可使用自带的SmartCN分词器，也可使用开源IK、messeg4j等等，选择什么样的分词器是索引过程当中很重要的一步，这个关键还得看本身的业务需求。性能

五、Document：表明一个文档的意思，相似于数据库的一行记录，咱们能够向文档中，添加本身想要的域字段，而后把一个个文档索引发来，提供检索。优化

六、Field：就是文档中存储的域，每个域都有一个域名和域值，这就相似数据库的字段名跟值同样，咱们可使用Field来精确控制各个域的值，最常使用的有2个Field，一个是不提供分词的StringField和另外一个分词的TextField，固然还有其余的一些Field。指针

七、IndexReader：这个类用来获取Directory的子类打开的索引文件流，而后将进IndexSearch的构造方法里，进行查询组件的初始化操做，这个类再低版本的lucene里也是不存在的，在后来新的版本里才添加的类。排序

八、IndexSearch：这个类是程序搜索期间的核心类，是链接索引的桥梁，它是以只读的方式进行索引，提供大量的检索，排序，过滤的等等以及其余的一些功能。索引

九、QueryParser或Query：均可以完成一些检索功能，不一样的是QueryParser提供的功能更为强大，方便自定义开发的一些检索方法，而Query及其麾下的一系列子类是Lucene中自带的一些API，使用这些API，大部分状况下均可以完成一些基本的检索，若是须要定制化本身的检索方案则须要使用QueryParser，大多数状况下，咱们最常使用的是Query下面的TermQuery子类，固然还有其余大量的特定功能的Query子类存在。内存

十、TopDocs：这个类是一个简单的容器指针，它通常会记录前N个检索的结果，在TopDocs中，它只会存储这个文档的docid以及获取的得分状况，另外这前N个结果，默认的排序方式，是按照得分的大小排列的。

十一、ScoreDoc类一般咱们使用的是一个数组，它里面也只会包含这个文档的docid以及获取的得分状况，与TopDocs不一样的是，咱们可使用这个类，来进行相似数据库的分页操做，固然你得保证你有足够的内存，若是是海量数据的分页，这个操做很容易形成内存溢出，这时候咱们就须要考虑其余方法了。

十二、Term类是搜索功能最基本的单元，与Field相似，检索的时候须要传入域名及检索的字符串，是一个小而不可或缺的精简类。