spark学习-spark shuffle操做的两个特色

时间 2019-12-05

原文原文链接

spark shuffle操做的两个特色：缓存 1.spark中bucket缓存默认是100KB，写入数据达到刷新到磁盘的阈值后，就会将数据一点一点刷新到磁盘。若是内存缓存太小，会发生过多的磁盘IO操做，须要根据实际的业务状况进行优化。函数 2.MapReduce必须将全部的数据都写入本地磁盘文件后，才能启动reduce操做，来拉取数据，由于MapReduce要实现默认的根据key的排序，须要写完

>>阅读原文<<