spark partition和hdfs block的关系

时间 2019-12-06

标签 spark partition hdfs block 关系栏目 Spark 繁體版

原文原文链接

背景：最近遇到了一个问题，一个程序利用hive sql 读取数据时出现了轻微的数据倾斜（每一个task的输入data 大小相似，可是executor的数据大小有差距），我怀疑是每一个partition的数据大小不一样，致使的这个问题。（但我想的很明显是错的，若是使用的是textfile，每一个task处理的就是一个partition的数据，而每一个partition的数据应该是每一个block的

>>阅读原文<<