spark-shuffle总结及调优

时间 2021-01-02

原文原文链接

spark1.2 默认使用的是 HashShuffle 写入磁盘流程：将每个task 处理的数据，按照 key 的 hash 进行分类，从而相同的 key 写入到同一个磁盘文件里面，而每个磁盘文件都只属于下游 stage 的一个 task，将数据写入到磁盘前，会先将数据写入到内存缓冲中，当内存缓冲填满后，溢写到磁盘文件中不排序，当前 stage 的每个 maptask，

>>阅读原文<<

1. SparkShuffle 及性能调优
2. 调优总结
3. JVM 调优总结
4. Hive调优总结
5. JVM调优总结
6. CPU调优总结
7. hive 调优总结
8. weblogic调优总结
9. cnn调优总结
10. sql调优总结
更多相关文章...
• MySQL的优势（优点） - MySQL教程
• Docker 资源汇总 - Docker教程
• 算法总结-广度优先算法
• 算法总结-深度优先算法