大数据面试题——Spark面试题(四)

1、Spark中的HashShufle的有哪些不足?     1)shuffle产生海量的小文件在磁盘上,此时会产生大量耗时的、低效的IO操作;      2)容易导致内存不够用,由于内存需要保存海量的文件操作句柄和临时缓存信息,如果数据处理规模比较大的话,容易出现OOM;      3)容易出现数据倾斜,导致OOM。   2、 conslidate是如何优化Hash shuffle时在map端产
相关文章
相关标签/搜索