Hadoop Streaming 中的数据倾斜坑

Hadoop Streaming 中的数据倾斜坑 1. 背景 最近用 hadoop streaming 跑一个数据集,不算大,每小时150G左右,可是每次耗时特别长,并且基本是卡在了reduce 98%的地方。     python 看了下输出,基本上是数据集中到一两个reducer上了,所以每次吐出最后几个reducer耗时特别长。     web 处理的数据在mapper输出相似于下面这种形式
相关文章
相关标签/搜索