前提:----------------------------------------------------------------------------------------------------------------------------程序员
project : Lucene
description : Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础创建起完整的全文检索引擎。Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,可以作全文索引和搜寻。算法
-----------------------------------------------------------------------------------------------------------------------------------数据库
一,什么是全文检索apache
1,通常数据有两种格式,一个是结构化的数据,另外一种是非结构化的数据。架构
Lucene做用的对象就是非结构化数据,因此,咱们就要研究非结构化的数据搜素方式。工具
顺序扫描法(Serial Scanning):搜索全文的数据,知道找到配置的数据,这种搜索方式的速度是很是慢的,缘由就是,非结构化的数据不像结构化的数据,oop
有必定的格式依据来进行全文数据的检索。因此咱们就会想,为什么不把非结构化的数据弄得有必定的结构不就好了?post
从非结构化的数据按照必定的结构进行提取,咱们称之为索引。ui
全文检索(Full-text Search):this
全文检索大致分两个过程,索引建立(Indexing)和搜索索引(Search)。
因而全文检索就存在三个重要问题:
1. 索引里面究竟存些什么?(Index)
2. 如何建立索引?(Indexing)
3. 如何对索引进行搜索?(Search)
下面咱们顺序对每一个个问题进行研究。
非结构化数据中所存储的信息是每一个文件包含哪些字符串,也即已知文件,欲求字符串相对容易,也便是从文件到字符串的映射。而咱们想搜索的信息是哪些文件包含此字符串,也即已知字符串,欲求文件,也即从字符串到文件的映射。二者偏偏相反。因而若是索引总可以保存从字符串到文件的映射,则会大大提升搜索速度。
因为从字符串到文件的映射是文件到字符串映射的反向过程,因而保存这种信息的索引称为反向索引。
三,如何建立索引
全文检索的索引建立过程通常有如下几步:
为了方便说明索引建立过程,这里特地用两个文件为例:
文件一:Students should be allowed to go out with their friends, but not allowed to drink beer.
文件二:My friend Jerry went to school to see his students but found them drunk which is not allowed.
分词组件(Tokenizer)会作如下几件事情(此过程称为Tokenize):
1. 将文档分红一个一个单独的单词。
2. 去除标点符号。
3. 去除停词(Stop word)。
所谓停词(Stop word)就是一种语言中最普通的一些单词,因为没有特别的意义,于是大多数状况下不能成为搜索的关键词,于是建立索引时,这种词会被去掉而减小索引的大小。
英语中挺词(Stop word)如:“the”,“a”,“this”等。
对于每一种语言的分词组件(Tokenizer),都有一个停词(stop word)集合。
通过分词(Tokenizer)后获得的结果称为词元(Token)。
在咱们的例子中,便获得如下词元(Token):
“Students”,“allowed”,“go”,“their”,“friends”,“allowed”,“drink”,“beer”,“My”,“friend”,“Jerry”,“went”,“school”,“see”,“his”,“students”,“found”,“them”,“drunk”,“allowed”。
语言处理组件(linguistic processor)主要是对获得的词元(Token)作一些同语言相关的处理。
对于英语,语言处理组件(Linguistic Processor)通常作如下几点:
1. 变为小写(Lowercase)。
2. 将单词缩减为词根形式,如“cars”到“car”等。这种操做称为:stemming。
3. 将单词转变为词根形式,如“drove”到“drive”等。这种操做称为:lemmatization。
Stemming 和 lemmatization的异同:
语言处理组件(linguistic processor)的结果称为词(Term)。
在咱们的例子中,通过语言处理,获得的词(Term)以下:
“student”,“allow”,“go”,“their”,“friend”,“allow”,“drink”,“beer”,“my”,“friend”,“jerry”,“go”,“school”,“see”,“his”,“student”,“find”,“them”,“drink”,“allow”。
也正是由于有语言处理的步骤,才能使搜索drove,而drive也能被搜索出来。
索引组件(Indexer)主要作如下几件事情:
1. 利用获得的词(Term)建立一个字典。
在咱们的例子中字典以下:
Term | Document ID |
student | 1 |
allow | 1 |
go | 1 |
their | 1 |
friend | 1 |
allow | 1 |
drink | 1 |
beer | 1 |
my | 2 |
friend | 2 |
jerry | 2 |
go | 2 |
school | 2 |
see | 2 |
his | 2 |
student | 2 |
find | 2 |
them | 2 |
drink | 2 |
allow | 2 |
2. 对字典按字母顺序进行排序。
Term | Document ID |
allow | 1 |
allow | 1 |
allow | 2 |
beer | 1 |
drink | 1 |
drink | 2 |
find | 2 |
friend | 1 |
friend | 2 |
go | 1 |
go | 2 |
his | 2 |
jerry | 2 |
my | 2 |
school | 2 |
see | 2 |
student | 1 |
student | 2 |
their | 1 |
them | 2 |
3. 合并相同的词(Term)成为文档倒排(Posting List)链表。
在此表中,有几个定义:
因此对词(Term) “allow”来说,总共有两篇文档包含此词(Term),从而词(Term)后面的文档链表总共有两项,第一项表示包含“allow”的第一篇文档,即1号文档,此文档中,“allow”出现了2次,第二项表示包含“allow”的第二个文档,是2号文档,此文档中,“allow”出现了1次。
到此为止,索引已经建立好了,咱们能够经过它很快的找到咱们想要的文档。
并且在此过程当中,咱们惊喜地发现,搜索“drive”,“driving”,“drove”,“driven”也可以被搜到。由于在咱们的索引中,“driving”,“drove”,“driven”都会通过语言处理而变成“drive”,在搜索时,若是您输入“driving”,输入的查询语句一样通过咱们这里的一到三步,从而变为查询“drive”,从而能够搜索到想要的文档。
四,如何对索引进行搜索
查询语句同咱们普通的语言同样,也是有必定语法的。
不一样的查询语句有不一样的语法,如SQL语句就有必定的语法。
查询语句的语法根据全文检索系统的实现而不一样。最基本的有好比:AND, OR, NOT等。
举个例子,用户输入语句:lucene AND learned NOT hadoop。
说明用户想找一个包含lucene和learned然而不包括hadoop的文档。
因为查询语句有语法,于是也要进行语法分析,语法分析及语言处理。
1. 词法分析主要用来识别单词和关键字。
如上述例子中,通过词法分析,获得单词有lucene,learned,hadoop, 关键字有AND, NOT。
若是在词法分析中发现不合法的关键字,则会出现错误。如lucene AMD learned,其中因为AND拼错,致使AMD做为一个普通的单词参与查询。
2. 语法分析主要是根据查询语句的语法规则来造成一棵语法树。
若是发现查询语句不知足语法规则,则会报错。如lucene NOT AND learned,则会出错。
如上述例子,lucene AND learned NOT hadoop造成的语法树以下:
3. 语言处理同索引过程当中的语言处理几乎相同。
如learned变成learn等。
通过第二步,咱们获得一棵通过语言处理的语法树。
此步骤有分几小步:
虽然在上一步,咱们获得了想要的文档,然而对于查询结果应该按照与查询语句的相关性进行排序,越相关者越靠前。
如何计算文档和查询语句的相关性呢?
不如咱们把查询语句看做一片短小的文档,对文档与文档之间的相关性(relevance)进行打分(scoring),分数高的相关性好,就应该排在前面。
那么又怎么对文档之间的关系进行打分呢?
这可不是一件容易的事情,首先咱们看一看判断人之间的关系吧。
首先看一我的,每每有不少要素,如性格,信仰,爱好,衣着,高矮,胖瘦等等。
其次对于人与人之间的关系,不一样的要素重要性不一样,性格,信仰,爱好可能重要些,衣着,高矮,胖瘦可能就不那么重要了,因此具备相同或类似性格,信仰,爱好的人比较容易成为好的朋友,然而衣着,高矮,胖瘦不一样的人,也能够成为好的朋友。
于是判断人与人之间的关系,首先要找出哪些要素对人与人之间的关系最重要,好比性格,信仰,爱好。其次要判断两我的的这些要素之间的关系,好比一我的性格开朗,另外一我的性格外向,一我的信仰佛教,另外一个信仰上帝,一我的爱好打篮球,另外一个爱好踢足球。咱们发现,两我的在性格方面都很积极,信仰方面都很善良,爱好方面都爱运动,于是两我的关系应该会很好。
咱们再来看看公司之间的关系吧。
首先看一个公司,有不少人组成,如总经理,经理,首席技术官,普通员工,保安,门卫等。
其次对于公司与公司之间的关系,不一样的人重要性不一样,总经理,经理,首席技术官可能更重要一些,普通员工,保安,门卫可能较不重要一点。因此若是两个公司总经理,经理,首席技术官之间关系比较好,两个公司容易有比较好的关系。然而一位普通员工就算与另外一家公司的一位普通员工有血海深仇,怕也难影响两个公司之间的关系。
于是判断公司与公司之间的关系,首先要找出哪些人对公司与公司之间的关系最重要,好比总经理,经理,首席技术官。其次要判断这些人之间的关系,不如两家公司的总经理曾经是同窗,经理是老乡,首席技术官曾是创业伙伴。咱们发现,两家公司不管总经理,经理,首席技术官,关系都很好,于是两家公司关系应该会很好。
分析了两种关系,下面看一下如何判断文档之间的关系了。
首先,一个文档有不少词(Term)组成,如search, lucene, full-text, this, a, what等。
其次对于文档之间的关系,不一样的Term重要性不一样,好比对于本篇文档,search, Lucene, full-text就相对重要一些,this, a , what可能相对不重要一些。因此若是两篇文档都包含search, Lucene,fulltext,这两篇文档的相关性好一些,然而就算一篇文档包含this, a, what,另外一篇文档不包含this, a, what,也不能影响两篇文档的相关性。
于是判断文档之间的关系,首先找出哪些词(Term)对文档之间的关系最重要,如search, Lucene, fulltext。而后判断这些词(Term)之间的关系。
找出词(Term)对文档的重要性的过程称为计算词的权重(Term weight)的过程。
计算词的权重(term weight)有两个参数,第一个是词(Term),第二个是文档(Document)。
词的权重(Term weight)表示此词(Term)在此文档中的重要程度,越重要的词(Term)有越大的权重(Term weight),于是在计算文档之间的相关性中将发挥更大的做用。
判断词(Term)之间的关系从而获得文档相关性的过程应用一种叫作向量空间模型的算法(Vector Space Model)。
下面仔细分析一下这两个过程:
影响一个词(Term)在一篇文档中的重要性主要有两个因素:
容易理解吗?词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要,如“搜索”这个词,在本文档中出现的次数不少,说明本文档主要就是讲这方面的事的。然而在一篇英语文档中,this出现的次数更多,就说明越重要吗?不是的,这是由第二个因素进行调整,第二个因素说明,有越多的文档包含此词(Term), 说明此词(Term)太普通,不足以区分这些文档,于是重要性越低。
这也如咱们程序员所学的技术,对于程序员自己来讲,这项技术掌握越深越好(掌握越深说明花时间看的越多,tf越大),找工做时越有竞争力。然而对于全部程序员来讲,这项技术懂得的人越少越好(懂得的人少df小),找工做越有竞争力。人的价值在于不可替代性就是这个道理。
道理明白了,咱们来看看公式:
这仅仅只term weight计算公式的简单典型实现。实现全文检索系统的人会有本身的实现,Lucene就与此稍有不一样。
咱们把文档看做一系列词(Term),每个词(Term)都有一个权重(Term weight),不一样的词(Term)根据本身在文档中的权重来影响文档相关性的打分计算。
因而咱们把全部此文档中词(term)的权重(term weight) 看做一个向量。
Document = {term1, term2, …… ,term N}
Document Vector = {weight1, weight2, …… ,weight N}
一样咱们把查询语句看做一个简单的文档,也用向量来表示。
Query = {term1, term 2, …… , term N}
Query Vector = {weight1, weight2, …… , weight N}
咱们把全部搜索出的文档向量及查询向量放到一个N维空间中,每一个词(term)是一维。
如图:
咱们认为两个向量之间的夹角越小,相关性越大。
因此咱们计算夹角的余弦值做为相关性的打分,夹角越小,余弦值越大,打分越高,相关性越大。
有人可能会问,查询语句通常是很短的,包含的词(Term)是不多的,于是查询向量的维数很小,而文档很长,包含词(Term)不少,文档向量维数很大。你的图中二者维数怎么都是N呢?
在这里,既然要放到相同的向量空间,天然维数是相同的,不一样时,取两者的并集,若是不含某个词(Term)时,则权重(Term Weight)为0。
相关性打分公式以下:
举个例子,查询语句有11个Term,共有三篇文档搜索出来。其中各自的权重(Term weight),以下表格。
t1 |
t2 |
t3 |
t4 |
t5 |
t6 |
t7 |
t8 |
t9 |
t10 |
t11 |
|
D1 |
0 |
0 |
.477 |
0 |
.477 |
.176 |
0 |
0 |
0 |
.176 |
0 |
D2 |
0 |
.176 |
0 |
.477 |
0 |
0 |
0 |
0 |
.954 |
0 |
.176 |
D3 |
0 |
.176 |
0 |
0 |
0 |
.176 |
0 |
0 |
0 |
.176 |
.176 |
Q |
0 |
0 |
0 |
0 |
0 |
.176 |
0 |
0 |
.477 |
0 |
.176 |
因而计算,三篇文档同查询语句的相关性打分分别为:
因而文档二相关性最高,先返回,其次是文档一,最后是文档三。
到此为止,咱们能够找到咱们最想要的文档了。
说了这么多,其实尚未进入到Lucene,而仅仅是信息检索技术(Information retrieval)中的基本理论,然而当咱们看过Lucene后咱们会发现,Lucene是对这种基本理论的一种基本的的实践。因此在之后分析Lucene的文章中,会经常看到以上理论在Lucene中的应用。
在进入Lucene以前,对上述索引建立和搜索过程所一个总结,如图:
此图参照http://www.lucene.com.cn/about.htm中文章《开放源代码的全文检索引擎Lucene》
1. 索引过程:
1) 有一系列被索引文件
2) 被索引文件通过语法分析和语言处理造成一系列词(Term)。
3) 通过索引建立造成词典和反向索引表。
4) 经过索引存储将索引写入硬盘。
2. 搜索过程:
a) 用户输入查询语句。
b) 对查询语句通过语法分析和语言分析获得一系列词(Term)。
c) 经过语法分析获得一个查询树。
d) 经过索引存储将索引读入到内存。
e) 利用查询树搜索索引,从而获得每一个词(Term)的文档链表,对文档链表进行交,差,并获得结果文档。
f) 将搜索到的结果文档对查询的相关性进行排序。
g) 返回查询结果给用户。