理解Spark之一——stage划分

  我们首先知道Spark的基本执行流程,简化来说,当提交一个Spark程序,HDFS上的每个Block对应一个分区、一个Task任务,这个Task任务就是在跑我们开发是Spark程序,程序中是我们使用的一个个算子。   在算子中,又可以划分成为两种,一种是宽依赖、一种是窄依赖,它们和stage的关系就是宽依赖是划分stage的边界,窄依赖并不会划分stage。    那么为什么需要stage这个
相关文章
相关标签/搜索