Spark基础概念

  • spark应用的基本概念
    •   spark应用(Application)执行过程当中各个组件的概念:

1.Task(任务):RDD中的一个分区对应一个task,task是单个分区上最小的处理流程单元。app

2.TaskSet(任务集):一组关联的,但相互之间没有Shuffle依赖关系的Task集合。spa

3.Stage(调度阶段):一个taskSet对应的调度阶段,每一个job会根据RDD的宽依赖关系被切分不少Stage,每一个stage都包含 一个TaskSet。blog

4.job(做业):由Action算子触发生成的由一个或者多个stage组成的计算做业。资源

5.application:用户编写的spark应用程序,由一个或者多个job组成,提交到spark以后,spark为application分派资源,将程序转换并执行。spark

6.DAGScheduler:根据job构建基于stage的DAG,并提交stage给TaskScheduler。io

7.TaskScheduler:将Taskset提交给Worker Node集群运行并返回结果。集群

    Spring驱动程序:程序

      

相关文章
相关标签/搜索