文本获取和搜索引擎中的反馈模型

coursera课程 text retrieval and search engine 第五周 推荐。spa

反馈的基本类型

  • relevance Feedback:查询结果返回后,有专门的人来识别那些信息是有用的,从而提升查询的命中率,这种方式很可靠
  • implicit feedback:观察有哪些返回结果是用户点击了的,有点击的认为是对用户有用的,从而提升查询准确率
  • persudo feedback:获取返回结果的前k个值,认为是好的查询结果,而后加强查询

Rocchio Feedback思想

对于VSM(vector space model)来讲,想要提升查询的准确度,须要把查询向量作一个调整,跳到某个位置以提升精度,Rocchio即把向量移到全部向量的中心cdn

||取模表明向量的个数,另外通过移动以后,会有不少原来是0的变成有数据,一般采用的措施是保留高权重的blog

它能够用在 relevance feedback和persudo feedback【relevance的beta要大于persudo】;在使用的时候注意不要过分依赖,仍是要以原始的查询为主,毕竟反馈只是一个小的样本ci

Kullback-Leibler divergence Retrieval model[KL散度检索模型]

kl做为反馈运算来说,具体操做能够是:首先提供一个预估要查询的文档集,以及查询的关键字,分别计算出文档和查询的向量。计算出两者的距离【基本和VSM一致】,经过这样的方式,会获得一个反馈的集合。这里的关键在于从反馈集合中提取出一个查询向量,经过如图所示的方式添加到查询向量中去【做为反馈】,从而提供更好的查询结果文档

混合模型

全部的反馈结果集合都会来自于反馈模型,可是经过词频分析来讲,排在最前面的通常都是经常使用的字段集合【the 等】,而这些加入反馈是很是不恰当的。 经过加入另外的一个集合【背景文档】,混合两个模型,并经过几率来选择哪一个集合的结果,这个时候,全部的反馈文档集合由混合模型来决定,那么对于在背景文档中不多的词频,可是在反馈文档中很频繁的,一定是来源于反馈文档集合,背景文档集合自己经过给the等词添加很低的频率,那么就能够筛选出反馈文集总太高的通用词it

topic words表明反馈模型,假设有一个源头来控制是取背景字段仍是反馈模型的字段,其选择几率是lamda。这样作到能够控制究竟是选择背景文集做为 反馈仍是反馈模型。io

相关文章
相关标签/搜索