Hadoop Map/Reduce的工作流

问题描述 我们的数据分析平台是单一的Map/Reduce过程,由于半年来不断地增加需求,导致了问题已经不是那么地简单,特别是在Reduce阶段,一些大对象会常驻内存。因此越来越顶不住压力了,当前内存问题已经是最大的问题,每个Map占用5G,每个Reduce占用9G!直接导致当数据分析平台运行时,集群处于资源匮乏状态。   因此,在不改变业务数据计算的条件下,将单一的Map/Reduce过程分解成2
相关文章
相关标签/搜索