Spark部分:Hash shuffle 和sort shuffle的区别,以及产生磁盘小文件的个数

Hash shuffle和sort shuffle的区别: Hash shuffle: 产生的磁盘小文件的个数为maptask*reducetask 每个分区是一个task 磁盘小文件多,I/O增多,产生的GC会增多。 这种shuffle产生的磁盘小文件,容易导致OOM   这种模式不单单产生的磁盘小文件比较多,而且占用内存也比较多。 我们应该降低这种磁盘之间的接触。 Hash shuffle的优
相关文章
相关标签/搜索