Spark调优方案-数据倾斜调优

目录 数据倾斜现象 发生数据倾斜现象的原因 定位发生数据倾斜的代码 解决方法 数据倾斜现象 绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。 原本能够正常执行的Spark作业,突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见。
相关文章
相关标签/搜索