数据仓库系列(7):数据倾斜

数据倾斜主要分为MapReduce数据倾斜与Hive数据倾斜,接下来分别阐述。 MapReduce数据倾斜: (一)Map端 在Map端读数据时,由于读人数据的文件大小分布不均匀,因此会导致有些Map Instance 读取并且处理的数据特别多,而有些Map Instance 处理的数据特别少,造成Map端长尾。以下两种情况可能会导致Map端长尾: 上游表文件的大小特别不均匀,并且小文件特别多,导
相关文章
相关标签/搜索