10.10 spark-shuffle,寻址

时间 2021-01-12

原文原文链接

HashShuffle 普通机制： map task的计算结果，会根据分区器（default:HashPartitioner）来决定写入到哪一个磁盘小文件里面去 reduce task会去Map端拉去相应的小文件产生磁盘小文件的个数公式：M(map task的个数)*R（reduce task的个数）磁盘小文件过多会有什么问题 1，在shuffle wirte过程中会产生很多写的对象 2，在s