学习笔记-spark

概念 RDD: 弹性分布式数据集(由分区组成),每个分区在不同节点上 job:在里面可以看到当前应用分析出来的所有任务,以及所有的excutors中action的执行时间。 stage:在里面可以看到应用的所有stage,stage是按照宽依赖来区分的,因此粒度上要比job更细一些。从作业调度角度展示调度的阶段和任务的完成装填 storage:我们所做的cache persist等操作,都会在这里
相关文章
相关标签/搜索