Spark API编程动手实战-02-以集群模式进行Spark API实战textFile、cache、count

时间 2021-01-12

标签 DataNode cache count textFile saveAsTextFile 栏目 Spark 繁體版

原文原文链接

操作HDFS：先要保证HDFS启动了：启动spark集群：以spark-shell运行在spark集群上：查看下之前上传到HDFS上的”LICENSE.txt“文件：用spark读取这个文件：使用count统计该文件的行数：我们可以看到count 耗时为0.239708s 对该RDD进行cache操作并执行count使得缓存生效：执行count结果为：此时耗时为0.21132

>>阅读原文<<