Spark sql处理数据倾斜方法

时间 2019-12-06

标签 spark sql 处理数据倾斜方法栏目 Spark 繁體版

原文原文链接

定义与表现：sql 数据倾斜指的是因为数据分区不均匀致使的，spark一部分tasks承担的数据量太大，而致使总体运行时间过长的现象。通常出如今对大表的join过程当中，数据表现是大表的join key集中分布在某几个取值上，spark运行时的表现是job在某个或某些task的处理上停留时间过长（more than 0.5 hour）。通常分为大表join大表，大表join小表；其中大表join小

>>阅读原文<<