spark并行度和partion联系

一、问题: 1、怎样提高并行度? 几种方式:(1)reduce时,输入参数(int)   (2)partitionBy()输入分区数  (3)SparkContext.textFile(path,num) 2、什么情况下需要提高并行度? (1).partition的个数是split size决定的,spark的底层还是用的hadoop的fileformat,当你制定了一个可以切分的format,他
相关文章
相关标签/搜索