Spark是分布式计算平台,最核心的就是他的任务调度体系。分布式
最主要方法是SubmitJob。负责Job的调度,Job划分红多个Stage,每一个Stage设置一个TaskSetManager,管理多个Task。调度TaskSchedulerImpl执行Task。spa
目前是TaskScheduler接口的惟一实现类。任务调度,以TaskSet为单位进行任务调度,每一个TaskSet包含一组Task。TaskScheduler管理着TaskSetManager,而TaskSetManager管理着一组关联的Task的生命周期。接口
管理一组Task的生命周期,元数据等。生命周期
各类Endpoint的实现类,负责在集群间传递任务调度的消息。it