spark学习-spark shuffle操做的两个特色

spark shuffle操做的两个特色:缓存 1.spark中bucket缓存默认是100KB,写入数据达到刷新到磁盘的阈值后,就会将数据一点一点刷新到磁盘。若是内存缓存太小,会发生过多的磁盘IO操做,须要根据实际的业务状况进行优化。函数 2.MapReduce必须将全部的数据都写入本地磁盘文件后,才能启动reduce操做,来拉取数据,由于MapReduce要实现默认的根据key的排序,须要写完
相关文章
相关标签/搜索