文本获取和搜索引擎中的反馈模型

时间 2019-12-05

标签文本获取搜索引擎反馈模型栏目搜索引擎繁體版

原文原文链接

coursera课程 text retrieval and search engine 第五周推荐。spa

反馈的基本类型

relevance Feedback:查询结果返回后，有专门的人来识别那些信息是有用的，从而提升查询的命中率，这种方式很可靠
implicit feedback:观察有哪些返回结果是用户点击了的，有点击的认为是对用户有用的，从而提升查询准确率
persudo feedback：获取返回结果的前k个值，认为是好的查询结果，而后加强查询

Rocchio Feedback思想

对于VSM(vector space model)来讲,想要提升查询的准确度，须要把查询向量作一个调整，跳到某个位置以提升精度，Rocchio即把向量移到全部向量的中心cdn

||取模表明向量的个数，另外通过移动以后，会有不少原来是0的变成有数据，一般采用的措施是保留高权重的blog

它能够用在 relevance feedback和persudo feedback【relevance的beta要大于persudo】;在使用的时候注意不要过分依赖，仍是要以原始的查询为主，毕竟反馈只是一个小的样本ci

Kullback-Leibler divergence Retrieval model[KL散度检索模型]

kl做为反馈运算来说，具体操做能够是：首先提供一个预估要查询的文档集，以及查询的关键字，分别计算出文档和查询的向量。计算出两者的距离【基本和VSM一致】，经过这样的方式，会获得一个反馈的集合。这里的关键在于从反馈集合中提取出一个查询向量，经过如图所示的方式添加到查询向量中去【做为反馈】，从而提供更好的查询结果文档

混合模型

全部的反馈结果集合都会来自于反馈模型，可是经过词频分析来讲，排在最前面的通常都是经常使用的字段集合【the 等】，而这些加入反馈是很是不恰当的。经过加入另外的一个集合【背景文档】，混合两个模型，并经过几率来选择哪一个集合的结果，这个时候，全部的反馈文档集合由混合模型来决定，那么对于在背景文档中不多的词频，可是在反馈文档中很频繁的，一定是来源于反馈文档集合，背景文档集合自己经过给the等词添加很低的频率，那么就能够筛选出反馈文集总太高的通用词it

topic words表明反馈模型，假设有一个源头来控制是取背景字段仍是反馈模型的字段，其选择几率是lamda。这样作到能够控制究竟是选择背景文集做为反馈仍是反馈模型。io