RDD的设计与运行原理

1.RDD设计背景 在实际应用中,存在许多迭代式算法(好比机器学习、图算法等)和交互式数据挖掘工具,这些应用场景的共同之处是,不一样计算阶段之间会重用中间结果,即一个阶段的输出结果会做为下一个阶段的输入。可是,目前的MapReduce框架都是把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。虽然,相似Pregel等图计算框架也是将结果保存在内存当中,可是,这些框架只能支持一些
相关文章
相关标签/搜索