PageRank算法

一、PageRank算法简介(摘自《Spark快速大数据分析》)         PageRank是执行多次连接的一个迭代算法,因此它是RDD分区操作的一个很好的用例。算法会维护两个数据集:一个由(pageID,linkList)的元素组成,包含每个页面的相邻页面的列表;另一个由(pageID,rank)元素组成,包含每个页面的当前排序值。它按如下步骤进行计算。 将每个页面的排序值初始化为1.0。
相关文章
相关标签/搜索