spark数据倾斜优化

一、尽量避免数据源的数据倾斜 比如数据源是kafka : 以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task(Partition),所以Kafka内相关Topic的各Partition之间数据是否平衡,直接决定Spark处理该数据时是否会产生数据倾斜。 Kafka某一Topic内消息在不同Parti
相关文章
相关标签/搜索