Spark数据本地性

时间 2019-12-14

标签 spark 数据本地栏目 Spark 繁體版

原文原文链接

分布式计算系统的精粹在于移动计算而非移动数据，可是在实际的计算过程当中，总存在着移动数据的状况，除非是在集群的全部节点上都保存数据的副本。移动数据，将数据从一个节点移动到另外一个节点进行计算，不但消耗了网络IO，也消耗了磁盘IO，下降了整个计算的效率。为了提升数据的本地性，除了优化算法（也就是修改spark内存，难度有点高），就是合理设置数据的副本。设置数据的副本，这须要经过配置参数并长期观察运行

>>阅读原文<<