spark数据倾斜优化

时间 2020-12-31

原文原文链接

一、尽量避免数据源的数据倾斜比如数据源是kafka ：以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task（Partition），所以Kafka内相关Topic的各Partition之间数据是否平衡，直接决定Spark处理该数据时是否会产生数据倾斜。 Kafka某一Topic内消息在不同Parti