Spark持久化以及checkpoint剖析

在Spark 的持久化使用中,咱们会将一些常常使用到的数据进行持久化,好比使用cache()或者persist()方法进行持久化操做,可是当某个节点或者executor挂掉以后,持久化的数据会丢失,由于咱们的数据是保存在内存当中的,这时就会从新计算RDD,若是某个以前的RDD须要大量的计算时间,这时将会浪费不少时间,所以,咱们有时候须要使用checkpoint操做来将一些数据持久化可容错文件系统中
相关文章
相关标签/搜索