Lucene4.3进阶开发之礼敬如来(十三)

评分功能,在全文检索中也算是一个很是重要的模块,由于评分的好坏,直接决定着用户搜索匹配的相关性,试想一下假如用户输入了一个搜索词,搜索引擎返回了一大堆不相关的信息,或者没有层次性,重点性的结果,那么看起来将是一件多么糟糕的事情。 java

lucene默认的评分机制,用的VSM(Vector  Space Model)空间向量模型,基于TF-IDF的评选方式,TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的经常使用加权技术。用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增长,但同时会随着它在语料库中出现的频率成反比降低。TF-IDF加权的各类形式常被搜索引擎应用,做为文件与用户查询之间相关程度的度量或评级。除了TF-IDF之外,因特网上的搜索引擎还会使用基于连接分析的评级方法,以肯定文件在搜寻结果中出现的顺序。 搜索引擎

TF-IDF模型,做为一种加权策略,在信息检索,搜索引擎,数据挖掘方面被普遍应用,这种模型在lucene中也获得了很好的实现。 spa

咱们先来看下,通常经常使用的方法加权,在索引时给某个 code

Field加权 orm

 Field field= new Field("title", "过程", type);
 field.setBoost(10.0f);

这种方式在lucene4.x以前能够给文档和域分别进行加权,可是在4.x以后,只能给域加权,废弃了文档加权的方式,若是想给文档加权,就须要对每一个域分别加权,来提高这个文档的权重。 排序

对比索引时的加权,咱们在检索时也能够设置加权boost,代码示例以下: 继承

Query q=parser.parse(term);
q.setBoost(8f);//检索时加权

或者也能够用,queryparse的解析表达式表示: 索引

Query q=parser.parse("lucene^10 solr^5");

除了,上面的几种方式外,咱们还能够自定义评分在源码级别改变一些打分策略: 文档

1,coord(int overlap, int maxOverlap),协调因子,这个因素起什么做用呢, get

举个例子如今我索引里面有2条数据: 

(1)中国一个多民族国家 

(2)中国是世界人口大国 

当咱们检索“中国”的时候,会发现这两个文档的评分同样,由于他们的长度也相等, 

而当咱们检索“中国   民族”的时候会发现第一个文档会排在前面并且得分要高,为何呢? 

overlap的个数,表明咱们在文档中命中的个数 

maxOverlap的个数,表明着检索条件里面的个数==>“中国   民族”2个 

由此咱们假设其余的条件同样的状况下能够推算出1的得分=2/2=1 

而第二个的评分是=1/2=0.5 

因此文档1的评分会更好,由于它命中了更多的term。 

在源码里方法以下: 

 public float coord(int overlap, int maxOverlap) {
    return overlap / (float)maxOverlap;
  }

2,影响评分的第二个因素queryNorm,这个因素,影响评分,但不影响排序的结果,举个例子,若是咱们想要把lucene的全部的记录得分的结果,给总体变大,或变小一些,那么咱们就能够调整个参数,来控制总体的得分比率。 

在lucene的源码里表示以下方法: 

 public float queryNorm(float sumOfSquaredWeights) {
    return (float)(1.0 / Math.sqrt(sumOfSquaredWeights));
  }

3,影响评分的第三个因素,TF,这个因素表明着一个term在某一篇文档中,若是它出现的频次越大,那么对应的评分就越高,咱们假设,其余的评分因子都同样,有以下2篇文档: 

(1)中国人的一天是怎么度过的呀? 

(2)咱们是中国人,他们也是中国人 

咱们检索“中国人”,会发现文档2的得分会比文档1的高,由于中国人的这个term,在文档2中出现了2次,在文档1中,只出现了一次。由此计算评分得: 

假设基数都同样是10,那么文档1的得分=10*1=10 

而文档二的得分则是=10*2=20,假设其余因子都同样,那么此时 

文档2的整体评分就会高于文档1,在显示结果时,会优先排在命中结果集的上方。 

lucene源码里的方法以下: 

 public float tf(float freq) {
    return (float)Math.sqrt(freq);
  }

4,影响评分的第四个因素IDF,这个参数表明的含义是,在全部的文档中,若是某个term频繁出现,那么这个term就被认为是广泛词,因此它的得分就要被减免。 

举例以下3个文档: 

(1)狗是一种聪明的动物。 

(2)猫和狗你更喜欢那个。 

(3)狗的种类也有许多种。 

如今咱们检索“狗  猫”,结果呢,咱们会发现文档2排在结果集的首位,为何呢? 

这其实就是IDF的思想,由于狗这个term在全部的文档中出现的次数大于猫,因此在IDF进行评分时,会下降其的评分。 

在lucene源码里,idf的方法以下: 

注意加1的二个做用第一个是为了不除数的为0的状况,第二个是为了这个文档在整个文档中不存在的时候,避免其的评分为0的状况存在。 

 public float idf(long docFreq, long numDocs) {
    return (float)(Math.log(numDocs/(double)(docFreq+1)) + 1.0);
  }

5,影响评分的第五个因素lengthNorm,这个因素是基于文档内容的长度计算的。举例以下: 

有2个文档: 

(1)中国 

(2)中国人 

这个时候咱们在检索“中国”的时候,文档1就会排在文档2的前面,为何会这样呢,明明中国一词在他们中间都出现了一次,形成这样状况出现,偏偏是因为lucene在计算评分,会将文档的长度计算在里面,由于根据常识,较短文本里,出现命中的词,说明这个词更加剧要。 

lucene源码里的代码以下: 

public float lengthNorm(FieldInvertState state) {
    final int numTerms;
    if (discountOverlaps)//表明对同义词不出理
      numTerms = state.getLength() - state.getNumOverlap();
    else
      numTerms = state.getLength();
   return state.getBoost() * ((float) (1.0 / Math.sqrt(numTerms)));
  }

6,lucene里影响评分的第六个因素,载荷Payload,这个功能是一个高级的功能,能够存储时,存储额外的信息,从而在检索时,达到从某种类型的数据动态加权。 

举个例子,咱们可能但愿某个XML里面被若是含有<keyword></keywrod>标记的词从而拥有更高的加权,这时候咱们就能够利用载荷实现了,在索引的时候,咱们判断term里的标签标记,若是出现了这个特定标签的标记的term,咱们就额外存储它的加权载荷信息,从而再检索时,来达到一个良好的检索结果。这时候使用载荷,是一个再好不过的选择了。 

lucene的源码里对载荷的方法描述以下: 

  public float scorePayload(int doc, int start, int end, BytesRef payload) {
    return 1;
  }

除了散仙,上文介绍的6种因素外,加上散仙在文章开始部位介绍的boost放权,目前已经介绍了7种影响打分的因素,固然到这里,并不意味着,这些就是所有的影响评分的方法了,事实上除了这些,还有一些其余的自定义评分的方式,这个散仙会在后续的文章里介绍,大部分的时候,咱们了解,利用这些信息,就能解决狠多业务上的需求了,因此咱们能够在咱们须要的任什么时候候,均可以继承DefaultSimilarity类,来重写和咱们业务相关的最好的打分策略。 

相关文章
相关标签/搜索