“戏”说Spark-Spark核心-RDD 持久化机制详解

时间 2020-12-26

原文原文链接

“戏”说Spark-Spark核心-RDD 持久化机制详解简介我们知道RDD之间的血统关系可以使得RDD拥有很好的容错，RDD还有一个叫持久化的机制，就是在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。缓

>>阅读原文<<