coursera课程 text retrieval and search engine 第五周 推荐。spa
对于VSM(vector space model)来讲,想要提升查询的准确度,须要把查询向量作一个调整,跳到某个位置以提升精度,Rocchio即把向量移到全部向量的中心cdn
||取模表明向量的个数,另外通过移动以后,会有不少原来是0的变成有数据,一般采用的措施是保留高权重的blog
它能够用在 relevance feedback和persudo feedback【relevance的beta要大于persudo】;在使用的时候注意不要过分依赖,仍是要以原始的查询为主,毕竟反馈只是一个小的样本ci
kl做为反馈运算来说,具体操做能够是:首先提供一个预估要查询的文档集,以及查询的关键字,分别计算出文档和查询的向量。计算出两者的距离【基本和VSM一致】,经过这样的方式,会获得一个反馈的集合。这里的关键在于从反馈集合中提取出一个查询向量,经过如图所示的方式添加到查询向量中去【做为反馈】,从而提供更好的查询结果文档
全部的反馈结果集合都会来自于反馈模型,可是经过词频分析来讲,排在最前面的通常都是经常使用的字段集合【the 等】,而这些加入反馈是很是不恰当的。 经过加入另外的一个集合【背景文档】,混合两个模型,并经过几率来选择哪一个集合的结果,这个时候,全部的反馈文档集合由混合模型来决定,那么对于在背景文档中不多的词频,可是在反馈文档中很频繁的,一定是来源于反馈文档集合,背景文档集合自己经过给the等词添加很低的频率,那么就能够筛选出反馈文集总太高的通用词it
topic words表明反馈模型,假设有一个源头来控制是取背景字段仍是反馈模型的字段,其选择几率是lamda。这样作到能够控制究竟是选择背景文集做为 反馈仍是反馈模型。io