Spark数据倾斜及解决方案

一.场景   1.绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有100个task,97个task都在1s之内执行完了,但是剩余的task却要一两分钟。这种情况很常见。   2.原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出),观察异常栈,是我们写的业务代码造成的。这种情况比较少见。 二.原理   在进行shuffle的时候,必须将各个节点上相同的key拉取到某
相关文章
相关标签/搜索