Hadoop Streaming 中的数据倾斜坑

时间 2019-12-05

原文原文链接

Hadoop Streaming 中的数据倾斜坑 1. 背景最近用 hadoop streaming 跑一个数据集，不算大，每小时150G左右，可是每次耗时特别长，并且基本是卡在了reduce 98%的地方。 python 看了下输出，基本上是数据集中到一两个reducer上了，所以每次吐出最后几个reducer耗时特别长。 web 处理的数据在mapper输出相似于下面这种形式