Spark 中 File,Block,Split,Task,Partition,RDD概念的理解

时间 2019-12-09

标签 spark file block split task partition rdd 概念理解栏目 Spark 繁體版

原文原文链接

1，在 HDFS 中会以 Block 为单位进行存储不少的 File，也就是说每一个 File 可能会被拆分红多个 Block 存储在 HDFS 上；spa

2，当 Spark 读取 HDFS 上的文件做为输入时，会根据具体数据格式对应的 InputFormat 进行解析，通常状况下是将不少个 Block 合并成一个 InputSplit（InputSplit不能跨越文件）；线程

3，而后，会将这些 InputSplit 生成具体的 Task，一个 InputSplit 对应一个 Task；orm

4，而后这些 Task 会被分配到集群上的节点中每一个 Executor 去执行；cdn

注：blog

a，每一个节点上会起一个或多个 Executor ；get

b，每一个 Executor 是由若干个 core 组成（这里的 core 是虚拟的 core，并非指物理机器的 cpu 核，通常来讲 spark 配置的 executor 核数不该该超过该节点的物理 cpu 核数），每一个 core 一次只能执行一个 Task，其实这里的每一个 Task 对应一个线程；it

5，每一个 Task 执行的结果就是生成了下一个 RDD 的一个 Partiotion；spark

具体能够看下图：io

参考：www.zhihu.com/question/33…class