《Spark技术内幕》第三章RDD实现详解

时间 2021-01-19

标签 spark 栏目 Spark 繁體版

原文原文链接

第三章 RDD实现详解 3.1 概述 Spark的目标是为基于工作集的应用（即多个并行操作重用中间结果的应用）提供抽象，同时保持MapReduce及相关模型的优势特性。即自动容错、位置感知性和可伸缩性。 RDD比数据流模型更容易编程，同时基于工作集的计算也具有良好的描述能力。在这些模型中最难实现的是容错性。一般来说，分布式数据集的容错性有两种：数据检查点和记录数据的更新。我们面对的是大规模

>>阅读原文<<