spark 处理小文件问题

coalesce与repartition  解决小文件问题 repartition(numPartitions: Int)   返回numPartitions分区个数的新RDD(或DataFrame)。   能够增长或减小此RDD中的并行性级别,内部使用shuffle来从新分配数据。   若是要减小partition数量,可考虑使用`coalesce`,这能够避免执行shuffle。  c
相关文章
相关标签/搜索