hadoop内的各类join

时间 2019-12-05

标签 hadoop 各类 join 栏目 Hadoop 繁體版

原文原文链接

今天决定把以前准备放到单台服务器上作的一个算法拿到hadoop里面完成。可是这个算法有两个重点：屡次表关联和屡次排序。以前用hadoop基本就是清洗数据，hive基本上也是sum和排序问题。因为业务上每一个表都比较均匀，因此，一直都是join就ok。可是最近这个项目，须要从外部导入两个数据量很小的文件，有数据倾斜，因而开始考虑效率问题了。看了不少别人的博客后，作以下理解：web reduce

>>阅读原文<<