Spark持久化以及checkpoint剖析

时间 2019-12-05

原文原文链接

在Spark 的持久化使用中，咱们会将一些常常使用到的数据进行持久化，好比使用cache()或者persist()方法进行持久化操做，可是当某个节点或者executor挂掉以后，持久化的数据会丢失，由于咱们的数据是保存在内存当中的，这时就会从新计算RDD，若是某个以前的RDD须要大量的计算时间，这时将会浪费不少时间，所以，咱们有时候须要使用checkpoint操做来将一些数据持久化可容错文件系统中

>>阅读原文<<