Spark部分:Hash shuffle 和sort shuffle的区别,以及产生磁盘小文件的个数

Hash shuffle和sort shuffle的区别:优化 Hash shuffle:spa 产生的磁盘小文件的个数为maptask*reducetask排序 每一个分区是一个task内存 磁盘小文件多,I/O增多,产生的GC会增多。hash 这种shuffle产生的磁盘小文件,容易致使OOMspark   这种模式不仅仅产生的磁盘小文件比较多,并且占用内存也比较多。class 咱们应该下降这
相关文章
相关标签/搜索