Spark API编程动手实战-05-spark文件操做和debug

时间 2019-11-13

标签 spark api 编程动手实战文件 debug 栏目 Spark 繁體版

原文原文链接

此次咱们以指定executor-memory参数的方式来启动spark-shell：web

启动成功了shell

在命令行中咱们指定了spark-shell运行暂用的每一个机器上的executor的内存为1g大小，启动成功后参看web页面：app

从hdfs上读取文件：oop

在命令行中返回的MappedRDD，使用toDebugString，能够查看其lineage的关系：spa

能够看出MappedRDD是从HadoopRDD转换而来的命令行

再看下textFile的源代码：orm

hadoopFile这个方法返回的是一个HadoopRDD，源码以下所示：内存

而map方法产生的是一个MappedRDD：hadoop

下面进行一个简单的wordcount操做：源码

执行结果：

再次使用toDebugString，查看下依赖关系：

HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD