Spark结合源码解决数据倾斜造成Too Large Frame

新公司遇到的第一个spark的坑,寻找原因的过程其实还挺有意思,最终在源码和spark ui上的统计数据的帮助下找到根源,具体如下。 先说下问题 由于严重的数据倾斜,大量数据集中在单个task中,导致shuffle过程中发生异常 完整的exeception是这样的 但奇怪的是,经过尝试减小executor数量后任务反而成功,增大反而失败,经过多次测试,问题稳定复现。 成功的executor数量是7
相关文章
相关标签/搜索