Spark Locality Level

时间 2021-01-18

原文原文链接

分布式计算系统的精粹在于移动计算而非移动数据，但是在实际的计算过程中，总存在着移动数据的情况。移动数据，将数据从一个节点移动到另一个节点进行计算，不但消耗了网络IO，也消耗了磁盘IO，降低了整个计算的效率。Spark UI可以查看取数据情况下面是Spark webUI监控Stage的一个图： PROCESS_LOCAL是指读取缓存在本地节点的数据 NODE_LOCAL是指读取本地节点硬盘