Spark sql处理数据倾斜方法

定义与表现:sql 数据倾斜指的是因为数据分区不均匀致使的,spark一部分tasks承担的数据量太大,而致使总体运行时间过长的现象。通常出如今对大表的join过程当中,数据表现是大表的join key集中分布在某几个取值上,spark运行时的表现是job在某个或某些task的处理上停留时间过长(more than 0.5 hour)。通常分为大表join大表,大表join小表;其中大表join小
相关文章
相关标签/搜索