大数据常见问题之数据倾斜

什么是数据倾斜      简单的讲,数据倾斜就是我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些数据的计算速度远远低于平均计算速度,导致整个计算过程过慢。      相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如: 用 Hive 算数据的时候 reduce 阶段卡在 99.99% 用 SparkStreaming 做实
相关文章
相关标签/搜索