金利道团队分享-基于MapReduce的PageRank算法

业务需求及编程思路编程

PageRank简单计算工具

假设一个由只有4个页面组成的集合:A,B,C和D。若是全部页面都链向A,那么A的PR(PageRank)值将是B,C及D的和。3d

      

 

 

       继续假设B也有连接到C,而且D也有连接到包括A的3个页面。一个页面不能投票2次。因此B给每一个页面半票。以一样的逻辑,D投出的票只有三分之一算到了A的PageRank上。blog

      

 

 

      换句话说,根据链出总数平分一个页面的PR值。class

      

 

 

一、自定义一个节点工具类NodeUtils,包括pr值、出链数等属性程序

 

 

 

二、Map类im

 

 

 

三、Reduce类img

 

 

 

四、主程序集合

 

 

五、运行程序di

相关文章
相关标签/搜索