“戏”说Spark-Spark核心-RDD 持久化机制详解

“戏”说Spark-Spark核心-RDD 持久化机制详解 简介 我们知道RDD之间的血统关系可以使得RDD拥有很好的容错,RDD还有一个叫持久化的机制,就是在不同操作间,持久化(或缓存)一个数据集在内存中。当你持久化一个RDD,每一个结点都将把它的计算分块结果保存在内存中,并在对此数据集(或者衍生出的数据集)进行的其它动作中重用。这将使得后续的动作(action)变得更加迅速(通常快10倍)。缓
相关文章
相关标签/搜索