大数据常见问题之数据倾斜

什么是数据倾斜     简单的讲,数据倾斜就是咱们在计算数据的时候,数据的分散度不够,致使大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,致使整个计算过程过慢。     相信大部分作数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,好比:web 用Hive算数据的时候reduce阶段卡在99.99% 用SparkStreaming作实时算法时候,
相关文章
相关标签/搜索