solr调用lucene底层实现倒排索引全流程解析

1.什么是Lucene?html

做为一个开放源代码项目,Lucene从问世以后,引起了开放源代码社群的巨大反响,程序员们不只使用它构建具体的全文检索应用,并且将之集成到各类系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene做为其内部全文检索子系统的核心。apache软件基金会的网站使用了Lucene做为全文检索的引擎,IBM的开源软件eclipse的2.1版本中也采用了Lucene做为帮助子系统的全文索引引擎,相应的IBM的商业软件Web Sphere中也采用了Lucene。Lucene以其开放源代码的特性、优异的索引结构、良好的系统架构得到了愈来愈多的应用。java

Lucene做为一个全文检索引擎,其具备以下突出的优势:程序员

(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不一样平台的应用可以共享创建的索引文件。web

(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,可以针对新的文件创建小文件索引,提高索引速度。而后经过与原有索引的合并,达到优化的目的。spring

(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度下降,方便扩充新功能。apache

(4)设计了独立于语言和文件格式的文本分析接口,索引器经过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只须要实现文本分析的接口。json

(5)已经默认实现了一套强大的查询引擎,用户无需本身编写代码即便系统可得到强大的查询能力,Lucene的查询实现中默认实现了布尔操做、模糊查询(Fuzzy Search)、分组查询等等。api

2.什么是solr?服务器

为何要solr:架构

一、solr是将整个索引操做功能封装好了的搜索引擎系统(企业级搜索引擎产品)

二、solr能够部署到单独的服务器上(WEB服务),它能够提供服务,咱们的业务系统就只要发送请求,接收响应便可,下降了业务系统的负载

三、solr部署在专门的服务器上,它的索引库就不会受业务系统服务器存储空间的限制

四、solr支持分布式集群,索引服务的容量和能力能够线性扩展

solr的工做机制:

一、solr就是在lucene工具包的基础之上进行了封装,并且是以web服务的形式对外提供索引功能

二、业务系统须要使用到索引的功能(建索引,查索引)时,只要发出http请求,并将返回数据进行解析便可

Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器。Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对索引、搜索性能进行了优化。

Solr能够独立运行,运行在Jetty、Tomcat等这些Servlet容器中,Solr 索引的实现方法很简单,用 POST 方法向 Solr 服务器发送一个描述 Field 及其内容的 XML 文档,Solr根据xml文档添加、删除、更新索引 。Solr 搜索只须要发送 HTTP GET 请求,而后对 Solr 返回Xml、json等格式的查询结果进行解析,组织页面布局。Solr不提供构建UI的功能,Solr提供了一个管理界面,经过管理界面能够查询Solr的配置和运行状况。

3.lucene和solr的关系
solr调用lucene底层实现倒排索引全流程解析

solr是门户,lucene是底层基础,solr和lucene的关系正如hadoop和hdfs的关系。那么solr是怎么调用到lucene的呢?

咱们以查询为例,来看一下整个过程,导入过程能够参考:

solr源码分析之数据导入DataImporter追溯

4.solr是怎么调用到lucene?

4.1.准备工做

lucene-solr本地调试方法

使用内置jetty启动main方法。

4.2 进入Solr-admin:http://localhost:8983/solr/

建立一个new_core集合

4.3 进入http://localhost:8983/solr/#/new_core/query

选择一个field进行查询

solr调用lucene底层实现倒排索引全流程解析

4.4 入口是SolrDispatchFilter,整个流程如流程图所示

solr调用lucene底层实现倒排索引全流程解析

从上面的流程图能够看出,solr采用filter的模式(如struts2,springmvc使用servlet模式),而后以容器的方式来封装各类Handler,Handler负责处理各类请求,最终调用的是lucene的底层实现。

注意:solr没有使用lucene自己的QueryParser,而是本身重写了这个组件。

5.总结

从solr-lucene架构图所示,solr封装了handler来处理各类请求,底下是SearchComponent,分为pre,process,post三阶段处理,最后调用lucene的底层api。

lucene 底层经过Similarity来完成打分过程,详细 介绍了lucene的底层文件结构,和一步步如何实现打分。

参考资料:

【1】http://www.blogjava.net/hoojo/archive/2012/09/06/387140.html

【2】http://www.javashuo.com/article/p-cbisuzpz-mu.html

相关文章
相关标签/搜索