[大数据]连载No9之SparkCore核心篇-资源调度

本次总结见目录 stage切割规则 1:每一个stage的并行度由task个数决定,task由partition个数决定,partitio由数据大小决定,或者说,stage并行度由最后一个RDD的partiton决定 2:每个task的处理逻辑就是每条线贯穿的Stage的所有的partition的处理逻辑,以递归函数的展开式整合起来的 见图 Spark任务调度流程 代码: 1)var conf =
相关文章
相关标签/搜索