Spark的数据本地化

数据本地化对于Spark Job性能有着巨大影响。如果数据以及要计算它的代码是在一起的,那么性能必然会很高,若不在一起,则其中之一必须移动到另外一方机器上,通常移动代码的速度会快得多。Spark基于这个数据本地化的原则来构建task调度算法的。 数据本地化:数据离计算它的代码有多近。基于数据距离代码的距离,有几种数据本地化级别: 1. PROCESS_LOCAL :数据和计算它的代码在同一个JVM
相关文章
相关标签/搜索