Spark数据本地性

分布式计算系统的精粹在于移动计算而非移动数据,可是在实际的计算过程当中,总存在着移动数据的状况,除非是在集群的全部节点上都保存数据的副本。移动数据,将数据从一个节点移动到另外一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,下降了整个计算的效率。为了提升数据的本地性,除了优化算法(也就是修改spark内存,难度有点高),就是合理设置数据的副本。设置数据的副本,这须要经过配置参数并长期观察运行
相关文章
相关标签/搜索