Spark Locality Level

分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。Spark UI可以查看取数据情况   下面是Spark webUI监控Stage的一个图:   PROCESS_LOCAL是指读取缓存在本地节点的数据 NODE_LOCAL是指读取本地节点硬盘
相关文章
相关标签/搜索