Spark的数据本地化

时间 2020-12-20

原文原文链接

数据本地化对于Spark Job性能有着巨大影响。如果数据以及要计算它的代码是在一起的，那么性能必然会很高，若不在一起，则其中之一必须移动到另外一方机器上，通常移动代码的速度会快得多。Spark基于这个数据本地化的原则来构建task调度算法的。数据本地化：数据离计算它的代码有多近。基于数据距离代码的距离，有几种数据本地化级别： 1. PROCESS_LOCAL :数据和计算它的代码在同一个JVM

>>阅读原文<<