今天咱们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。
在推荐系统中,用户行为数据能够表示成图的形式,具体来讲是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中咱们认为用户对他产生过行为的物品的兴趣度是同样的,也就是咱们只考虑“感兴趣”OR“不感兴趣”。假设有下图所示的行为数据集。
python
其中users集U={A, B, C},items集I = {a,b,c,d}。则用户物品的二部图以下所示:
算法
咱们用G(V, E)来表示这个图,则顶点集V=U∪I,图中的边则是由数据集中的二元组肯定。二元组(u, i)表示u对i有过行为,则在图中表现为有边相连,即e(u,i)。【注意】,本文中咱们不考虑各边的权重(即u对i的兴趣度),权重都默认为1。感兴趣即有边相连,不感兴趣则没有边相连。
那有了二部图以后咱们要对u进行推荐物品,就转化为计算用户顶点u和与全部物品顶点之间的相关性,而后取与做者没有直接边相连的物品,按照相关性的高低生成推荐列表。说白了,这是一个图上的排名问题,咱们最容易想到的就是Google的pageRank算法。
PageRank是Larry Page 和 Sergey Brin设计的用来衡量特定网页相对于搜索引擎中其余网页的重要性的算法,其计算结果做为google搜索结果中网页排名的重要指标。网页之间经过超连接相互链接,互联网上不可胜数的网页就构成了一张超大的图。PageRank假设用户从全部网页中随机选择一个网页进行浏览,而后经过超连接在网页直接不断跳转。到达每一个网页后,用户有两种选择:到此结束或者继续选择一个连接浏览。算法令用户继续浏览的几率为d,用户以相等的几率在当前页面的全部超连接中随机选择一个继续浏览。这是一个随机游走的过程。当通过不少次这样的游走以后,每一个网页被访问用户访问到的几率就会收敛到一个稳定值。这个几率就是网页的重要性指标,被用于网页排名。算法迭代关系式以下所示:
搜索引擎
上式中PR(i)是网页i的访问几率(也就是重要度),d是用户继续访问网页的几率,N是网页总数。in(i)表示指向网页i的网页集合,out(j)表示网页j指向的网页集合。
用user节点和item节点替换上面的网页节点就能够计算出每一个user,每一个item在全局的重要性,给出全局的排名,显然这并非咱们想要的,咱们须要计算的是物品节点相对于某一个用户节点u的相关性。怎么作呢?Standford的Haveliwala于2002年在他《Topic-sensitive pagerank》一文中提出了PersonalRank算法,该算法可以为用户个性化的对全部物品进行排序。它的迭代公式以下:
google
咱们发现PersonalRank跟PageRank的区别只是用替换了1/N,也就是说从不一样点开始的几率不一样。u表示咱们推荐的目标用户,这样使用上式计算的就是全部顶点相对于顶点u的相关度。
与PageRank随机选择一个点开始游走(也就是说从每一个点开始的几率都是相同的)不一样,若是咱们要计算全部节点相对于用户u的相关度,则PersonalRank从用户u对应的节点开始游走,每到一个节点都以1-d的几率中止游走并从u从新开始,或者以d的几率继续游走,从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样通过不少轮游走以后,每一个顶点被访问到的几率也会收敛趋于稳定,这个时候咱们就能够用几率来进行排名了。
在执行算法以前,咱们须要初始化每一个节点的初始几率值。若是咱们对用户u进行推荐,则令u对应的节点的初始访问几率为1,其余节点的初始访问几率为0,而后再使用迭代公式计算。而对于pageRank来讲,因为每一个节点的初始访问几率相同,因此全部节点的初始访问几率都是1/N (N是节点总数)。
spa
我本身用Python实现了一下PersonalRank:(可执行,感兴趣的童鞋可经过附件下载源码文件,如有错误恳请指正^_^).net
#coding=utf-8 __author__ = 'Harry Huang' def PersonalRank(G, alpha, root, max_step): rank = dict() rank = {x:0 for x in G.keys()} rank[root] = 1 #开始迭代 for k in range(max_step): tmp = {x:0 for x in G.keys()} #取节点i和它的出边尾节点集合ri for i, ri in G.items(): #取节点i的出边的尾节点j以及边E(i,j)的权重wij, 边的权重都为1,在这不起实际做用 for j, wij in ri.items(): #i是j的其中一条入边的首节点,所以须要遍历图找到j的入边的首节点, #这个遍历过程就是此处的2层for循环,一次遍历就是一次游走 tmp[j] += alpha * rank[i] / (1.0 * len(ri)) #咱们每次游走都是从root节点出发,所以root节点的权重须要加上(1 - alpha) #在《推荐系统实践》上,做者把这一句放在for j, wij in ri.items()这个循环下,我认为是有问题。 tmp[root] += (1 - alpha) rank = tmp #输出每次迭代后各个节点的权重 print 'iter: ' + str(k) + "\t", for key, value in rank.items(): print "%s:%.3f, \t"%(key, value), print return rank if __name__ == '__main__' : G = {'A' : {'a' : 1, 'c' : 1}, 'B' : {'a' : 1, 'b' : 1, 'c':1, 'd':1}, 'C' : {'c' : 1, 'd' : 1}, 'a' : {'A' : 1, 'B' : 1}, 'b' : {'B' : 1}, 'c' : {'A' : 1, 'B' : 1, 'C':1}, 'd' : {'B' : 1, 'C' : 1}} PersonalRank(G, 0.85, 'A', 100)
数据集使用的本文一开始讲的那个,最终各个节点的几率结果以下所示:设计
上面的代码是对本文一开始描述的数据集中的用户A进行推荐。上图给出了不一样迭代次数后各节点的几率值。发现46次迭代以后,全部节点的几率值全都收敛。在这个例子中,A用户没有产生过行为的物品是b和d,相对于A的访问几率分别是0.039,0.076,d的访问几率显然要大于b,全部给A用户的推荐列表为{d,b}。code
附件:PersonalRank.py排序