spark 2节点2g数据orderby性能测试和疑惑点--更多的性能数据

时间 2021-01-11

原文原文链接

这次与上次spark 2节点2g数据orderby性能测试和疑惑点的不同点： 1. 输入数据在两台机器上都有拷贝，读取时直接本地读取 2. 直接输出数据到本地，每台机器上输出的是自己运行的分区读取数据时slave5仍然只读了4个分区，等会可以看出原因，读取数据时的tasks如下：这就导致了这次的jobs，stages，tasks的分配和上次比可以说是一样，再上一张shuffle read的总览

>>阅读原文<<