Spark API编程动手实战-05-spark文件操做和debug

此次 咱们以指定executor-memory参数的方式来启动spark-shell:web



启动成功了shell


在命令行中咱们指定了spark-shell运行暂用的每一个机器上的executor的内存为1g大小,启动成功后参看web页面:app



从hdfs上读取文件:oop



在命令行中返回的MappedRDD,使用toDebugString,能够查看其lineage的关系:spa


能够看出MappedRDD是从HadoopRDD转换而来的命令行

再看下textFile的源代码:orm



hadoopFile这个方法返回的是一个HadoopRDD,源码以下所示:内存



而map方法产生的是一个MappedRDD:hadoop



下面进行一个简单的wordcount操做:源码


执行结果:


再次使用toDebugString,查看下依赖关系:


HadoopRDD -> MappedRDD -> FlatMappedRDD ->  MappedRDD -> ShuffledRDD 

相关文章
相关标签/搜索