【Spark系列】：Spark的数据本地化

时间 2020-12-21

原文原文链接

1.数据的本地化级别有哪些？ Spark 中任务的处理需要考虑数据的本地性，以 spark 1.6 为例，目前支持以下几种： PROCESS_LOCAL：进程本地化，表示 task 要计算的数据在同一个 Executor 中。 NODE_LOCAL：节点本地化，速度稍慢，因为数据需要在不同的进程之间传递或从文件中读取。分为两种情况，第一种：task 要计算的数据是在同一个 worker 的不同 E