Apache Spark RDD 论文（中文翻译）

时间 2020-06-11

原文原文链接

概要为了能解决程序员能在大规模的集群中以一种容错的方式进行内存计算这个问题，咱们提出了 RDDs 的概念。当前的不少框架对迭代式算法场景与交互性数据挖掘场景的处理性能很是差，这个是 RDDs 的提出的动机。若是能将数据保存在内存中，将会使的上面两种场景的性能提升一个数量级。为了能达到高效的容错，RDDs 提供了一种受限制的共享内存的方式，这种方式是基于粗粒度的转换共享状态而非细粒度的更新共享状态

>>阅读原文<<