spark partition和hdfs block的关系

背景:最近遇到了一个问题,一个程序利用hive sql 读取数据时出现了轻微的数据倾斜(每一个task的输入data 大小相似,可是executor的数据大小有差距),我怀疑是每一个partition的数据大小不一样,致使的这个问题。(但我想的很明显是错的,若是使用的是textfile,每一个task处理的就是一个partition的数据,而每一个partition的数据应该是 每一个block的
相关文章
相关标签/搜索