《Spark技术内幕》第三章RDD实现详解

第三章 RDD实现详解 3.1 概述 Spark的目标是为基于工作集的应用(即多个并行操作重用中间结果的应用)提供抽象,同时保持MapReduce及相关模型的优势特性。 即自动容错、位置感知性和可伸缩性。 RDD比数据流模型更容易编程,同时基于工作集的计算也具有良好的描述能力。 在这些模型中最难实现的是容错性。 一般来说,分布式数据集的容错性有两种:数据检查点和记录数据的更新。 我们面对的是大规模
相关文章
相关标签/搜索