hadoop内的各类join

今天决定把以前准备放到单台服务器上作的一个算法拿到hadoop里面完成。可是这个算法有两个重点:屡次表关联和屡次排序。以前用hadoop基本就是清洗数据,hive基本上也是sum和排序问题。因为业务上每一个表都比较均匀,因此,一直都是join就ok。 可是最近这个项目,须要从外部导入两个数据量很小的文件,有数据倾斜,因而开始考虑效率问题了。 看了不少别人的博客后,作以下理解:web reduce
相关文章
相关标签/搜索