spark 数据倾斜调优

时间 2020-12-25

原文原文链接

一：均衡数据是我们的目标，或者说我们要解决数据倾斜的发力点。一般说shuffle是产生数据倾斜的主要原因，为什么shuffle产生数据倾斜主要是因为网络通信，如果计算之前通过ETL（ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)作为BI/DW（Business Intelligence）的核心和灵魂，能够按照统一的规则集成并提高数据的价值，是负责完成数