几率检索模型：BIM+BM25+BM25F

时间 2019-12-05

原文原文链接

1. 几率排序原理

以往的向量空间模型是将query和文档使用向量表示而后计算其内容类似性来进行相关性估计的，而几率检索模型是一种直接对用户需求进行相关性的建模方法，一个query进来，将全部的文档分为两类 -- 相关文档、不相关文档，这样就转为了一个相关性的分类问题。atom

对于某个文档spa

如今使用贝叶斯公式将其转一下：3d

在搜索排序过程当中不须要真正的分类，只须要保证相关性由高到底排序便可，因此只须要code

2. 二元独立模型(BIM)

为了可以使得上述两个计算因子可行，二元独立模型作出了两个假设：xml

1. 二元假设blog

相似于布尔模型中的文档表示方法，一篇文档在由特征（或者单词）进行表示的时候，以特征（或者单词）出现和不出现两种状况来表示，不考虑词频等其余因素。排序

2. 词汇独立性假设文档

指文档里出现的单词之间没有任何关联，任意一个单词在文档的分布几率不依赖于其余单词是否出现。由于词汇之间没有关联，因此能够将文档几率转换为单词几率的乘积。class

上述提到的文档基础

第1,3,5表示这个单词在

最终获得的相关性几率估算为：

如今将其推广以后能够有通用的式子：

$d_{i} = 1$

其中上面式子第三步的第二部分表示各个单词在全部文档中出现的几率，因此这个式子的值和具体文档并无什么关系，在排序中不起做用，才能够简化到第4步。

为了方便计算，将上述连乘公式取

有了上述最终可计算的式子以后，咱们就只须要统计文档

上面的表格表示各个单词在文档集合中的相关文档/不相关文档出现数量，同时为了不

则最终能够获得以下公式：

其表明的含义是：对于同时出如今用户查询Q和文档D中的单词，累加每一个单词的估值，其和就是文档D和查询的相关性度量。

3. BM25模型

BIM模型基于二元独立假设推导而出，即对于单词特征，只考虑是否在文档中出现过，而不考虑单词的权值。BM25模型在BIM模型的基础上，考虑了单词在查询中的权值及单词在文档中的权值，拟合出综合上述考虑因素的公式，并经过实验引入一些经验参数。

BM25模型的具体计算公式以下所示：

上面的式子中:

第1个组成部分即为上一小节的二元独立模型BIM计算得分，若是赋予一些默认值的话，等价于IDF因子的做用。
第2个组成部分是查询词在文档
1. k1
3. dl
4. avdl
第3个组成部分是查询词自身的权值，

假设当前以“乔布斯 IPAD2”这个查询词为例，来计算在某文档

其余数值假定以下:

文档的集合总数：
包含乔布斯的文档个数为：
包含IPAD2的文档个数为：
文档
文档
查询词频均为：
调节因子
调节因子
调节因子
设文档

则最终能够计算到的BM25结果为:

每一个文档按上述公式计算获得相关性排序便可。

4. BM25F模型

在BM25模型中，文档被当作一个总体进行进行词频的统计，而忽视了不一样区域的重要性，BM25F模型正是抓住了这点进行了相应的改进。

BM25F模型在计算相关性时候，会对文档分割成不一样的域来进行加权统计，很是适用于网页搜索，由于在一个网页有标题信息、meta信息、页面内容信息等，而标题信息无疑是最重要的，其次是meta信息，最后才是网页内容，BM25F在计算相关性的，会将网页分为不用的区域，在各个区域分别统计本身的词频。

因此BM25F模型的计算公式为：

BM25F的第1部分仍是BIM的值。

其中与BM25主要的差异体如今因子上，它是单词

上面的公式表示:

文档
各个域对应的权重为