1,在 HDFS 中会以 Block 为单位进行存储不少的 File,也就是说每一个 File 可能会被拆分红多个 Block 存储在 HDFS 上;spa
2,当 Spark 读取 HDFS 上的文件做为输入时,会根据具体数据格式对应的 InputFormat 进行解析,通常状况下是将不少个 Block 合并成一个 InputSplit(InputSplit不能跨越文件);线程
3,而后,会将这些 InputSplit 生成具体的 Task,一个 InputSplit 对应一个 Task;orm
4,而后这些 Task 会被分配到集群上的节点中每一个 Executor 去执行;cdn
注:blog
a,每一个节点上会起一个或多个 Executor ;get
b,每一个 Executor 是由若干个 core 组成(这里的 core 是虚拟的 core,并非指物理机器的 cpu 核,通常来讲 spark 配置的 executor 核数不该该超过该节点的物理 cpu 核数),每一个 core 一次只能执行一个 Task,其实这里的每一个 Task 对应一个线程;it
5,每一个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion;spark
具体能够看下图:io
参考:www.zhihu.com/question/33…class