Lucene简单了解和使用

时间 2019-12-05

标签 lucene 简单解和使用繁體版

原文原文链接

一,Lucene简介算法

1 、 Lucene 是什么?数据库

Lucene 是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。说到底它是一个信息检索程序库，而不是应用产品。所以它并不像百度或者 google 那样，拿来就能用，它只是提供了一种工具让你能实现这些产品。apache

2 、Lucene 能作什么?架构

要回答这个问题，先要了解 lucene 的本质。实际上 lucene 的功能很单一，说到底，就是咱们给它若干个字符串，而后它为咱们提供一个全文搜索服务，最后告诉咱们要搜索的关键词出如今哪里。知道了这个本质，咱们就能够发挥想象作任何符合这个条件的事情了。好比咱们能够把站内新闻都索引了，作个资料库；也能够把一个数据库表的若干个字段索引发来，那就不用再担忧由于“%like%”而锁表了；学完 lucene,你也能够写个本身的搜索引擎了……工具

3,Lucene 速度测试测试

下面给出一些测试数据，若是你以为能够接受，那么能够选择。测试一：250 万记录，300M 左右文本，生成索引 380M 左右，800 线程下平均处理时间 300ms。搜索引擎

测试二：37000 记录，索引数据库中的两个 varchar 字段，索引文件2.6M，800 线程下平均处理时间 1.5ms。google

二,深刻lucene开放源代码

1 、为何 lucene 这么快
一、倒排索引
二、压缩算法
三、二元搜索线程

2 、倒排序索引它是根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具备该属性值的各记录的地址。因为不是由记录来肯定属性值，而是由属性值来肯定记录的位置，于是称为倒排索引(invertedindex)。

3 、工做方式

Lucene 提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户能够经过关键词定位源。

4 、写入流程

一、源字符串首先通过 analyzer 处理，包括：分词，分红一个个单词；去除 stopword（可选）。

二、将源中须要的信息加入 Document 的各个 Field（信息域）中，并把须要索引的 Field 索引发来，把须要存储的 Field 存储起来。

三、将索引写入磁盘。

5 、读出流程

一、用户提供搜索关键词，通过 analyzer 处理。

二、对处理后的关键词搜索它的索引，找出对应的 Document。

三、用户根据须要从找到的 Document 中提取须要的 Field。

6 、Docement

用户提供的源是一条条记录，它们能够是文本文件、字符串或者数据库表的一条记录等等。一条记录通过索引以后，就是以一个Document 的形式存储在索引文件中的。用户进行搜索，也是以Document 列表的形式返回。

7 、Field
一个 Document 能够包含多个信息域，例如一篇文章能够包含“标题”、“正文”、“最后修改时间”等信息域，这些信息域就是经过 Field在 Document 中存储的。Field 有两个属性可选：存储和索引。经过存储属性你能够控制是否对这个 Field 进行存储；经过索引属性你能够控制是否对该Field 进行索引。这看起来彷佛有些废话，事实上对这两个属性的正
确组合很重要。

8 、实现原理

Lucene 总体使用如图所示：

9 、环境配置
下载 lucene jar
官网：https://lucene.apache.org/
导入 jar 到项目中

10 、建立索引

11 、查询索引

12 、其余功能

12.1 分词器

Lucene 自带的 StandardAnalyzer 分词器，只能对英语进行分词。在对中文进行分词的时候采用了一元分词，即每个中文做为一个词，如“我是中国人”，则分词结果为“我”，“是”，“中”，“国”，“人”，能够看出分词效果不好。在这里推荐一个比较好用的中文分词器IKAnalyzer。

12.2 停用词

停用词是指在信息检索中，为节省存储空间和提升搜索效率，在处理天然语言数据（或文本）以前或以后会自动过滤掉某些字或词，这些字或词即被称为 Stop Words（停用词）。好比中文中“了”， “么”，“呢”，“的”等意义不大且在一篇文章中出现频率又很高的词，又比

如英文中的”for”,”in”,”it”,”a”,”or”等词。在使用 IKAnalyzer 分词器的时候，能够在 IKAnalyzer.cfg.xml里配置相关信息，以下图：

12.3 高亮-Highlighter

13,Field

一.Field 属性
Field 是文档中的域，包括 Field 名和 Field 值两部分，一个文档能够包括多个 Field，Document 只是 Field 的一个承载体，Field
值即为要索引的内容，也是要搜索的内容。

是否分词(tokenized)
是：做分词处理，即将 Field 值进行分词，分词的目的是为了索引。
好比：商品名称、商品简介等，这些内容用户要输入关键字搜索，因为搜索的内容格式大、内容多须要分词后将语汇单元索引。
否：不做分词处理
好比：商品 id、订单号、身份证号等

是否索引(indexed)
是：进行索引。将 Field 分词后的词或整个 Field 值进行索引，索引的目的是为了搜索。
　　好比：商品名称、商品简介分词后进行索引，订单号、身份证号不用分词但也要索引，这些未来都要做为查询条件。
否：不索引。该域的内容没法搜索到
　　好比：商品 id、文件路径、图片路径等，不用做为查询条件的不用索引。

是否存储(stored)
是：将 Field 值存储在文档中，存储在文档中的 Field 才能够从Document 中获取。
好比：商品名称、订单号，凡是未来要从 Document 中获取的 Field都要存储。
否：不存储 Field 值，不存储的 Field 没法经过 Document 获取
好比：商品简介，内容较大不用存储。若是要向用户展现商品简介能够从系统的关系数据库中获取商品简介。若是须要商品描述，则根据搜索出的商品 ID 去数据库中查询，而后
显示出商品描述信息便可。

二.Field 经常使用类型
开发中经常使用的 Filed 类型，注意 Field 的属性，根据需求选择：

三. 例子
图书 id：
是否分词：不用分词，由于不会根据商品 id 来搜索商品
是否索引：不索引，由于不须要根据图书 ID 进行搜索
是否存储：要存储，由于查询结果页面须要使用 id 这个值

图书名称：
是否分词：要分词，由于要将图书的名称内容分词索引，根据关
键搜索图书名称抽取的词。
是否索引：要索引。
是否存储：要存储

图书价格：
是否分词：要分词，lucene 对数字型的值只要有搜索需求的都要
分词和索引，由于 lucene 对数字型的内容要特殊分词处理，本例
子可能要根据价格范围搜索，须要分词和索引。
是否索引：要索引
是否存储：要存储
 图书图片地址：
是否分词：不分词
是否索引：不索引
是否存储：要存储
 图书描述：
是否分词：要分词
是否索引：要索引
是否存储：由于图书描述内容量大，不在查询结果页面直接显示，

不存储。不存储是来不在 lucene 的索引文件中记录，节省 lucene的索引文件空间，若是要在详情页面显示描述，思路：从 lucene中取出图书的 id，根据图书的 id 查询关系数据库中 book 表得到描述信息。