Apache Spark RDD 论文de 简单梳理

1、RDD的提出是为了解决在大规模集群中以一种容错的方式进行内存计算这个问题; 2、目前的框架对迭代式算法场景与交互数据挖掘场景的处理性能比较差(主要是对数据复用的不灵活,I/O开销大); 3、论文核心是提出一种分布式内存抽象:RDDs;是一种可以容错且并行的数据结构,可让用户将计算的中间结果保存在内存中、控制数据集的分区,实现数据存放的优化,还提供了丰富的API; 4、挑战:如何定义一个高效容错
相关文章
相关标签/搜索