hadoop MR任务优化总结

最近在作数据灌库工做,数据量较大不能基于单机进行灌库,须要编写MR任务。因为作MR开发经验不足,几经优化才知足灌库性能要求,这里总结一下。web 如非必要,请规避reduce任务 reduce任务涉及跨计算节点拉取数据,shuffle及数据排序,而这些过程都是很耗资源的。 对于灌库任务来讲,咱们没有必要对数据作排序,彻底不要reduce任务,不要多此一举地去将reduce设置为cat,看上去cat
相关文章
相关标签/搜索