spark rdd---checkpoint机制

先说cache. val rdd1 = sc.textFile("hdfs://master:9000/wordcount/input") val rdd2 = rdd1.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_) rdd2.collect 这里以wordcount为例,因为rdd2中的数据经复杂操作后很重要,以后可能经常用到(如机器学习中的
相关文章
相关标签/搜索