Spark——控制算子

概念: 控制算子有三种,cache,persist,checkpoint,以上算子均可以将RDD持久化,持久化的单位是partition。cache和persist都是懒执行的。必须有一个action类算子触发执行。checkpoint算子不只能将RDD持久化到磁盘,还能切断RDD之间的依赖关系。java cache 默认将RDD的数据持久化到内存中。cache是懒执行。 注意:cache ()
相关文章
相关标签/搜索