大数据面试题——Spark面试题（四）

时间 2021-02-03

标签大数据面试题总结 1024程序员节 Spark面试题总结大数据栏目快乐工作繁體版

原文原文链接

1、Spark中的HashShufle的有哪些不足？ 1）shuffle产生海量的小文件在磁盘上，此时会产生大量耗时的、低效的IO操作； 2）容易导致内存不够用，由于内存需要保存海量的文件操作句柄和临时缓存信息，如果数据处理规模比较大的话，容易出现OOM； 3）容易出现数据倾斜，导致OOM。 2、 conslidate是如何优化Hash shuffle时在map端产

>>阅读原文<<