spark rdd---checkpoint机制

时间 2020-12-25

原文原文链接

先说cache. val rdd1 = sc.textFile("hdfs://master:9000/wordcount/input") val rdd2 = rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) rdd2.collect 这里以wordcount为例，因为rdd2中的数据经复杂操作后很重要，以后可能经常用到(如机器学习中的