利用MapReduce框架,编程实现数据去重与排序。

利用MapReduce框架,编程实现数据去重与排序。 熟练掌握map-reduce工作流程; 核心思想:分而治之,把大的数据集分成许多小数据块,在多台机器上并行处理。 透彻理解map-reduce工作流程中每个“节点”的功能。 Input: 输入文件的存储位置 Split: 大数据集拆分成小数据集。 Mapper:<1> 把输入目录下的文件进行逻辑切片,每个切片由一个MapTask处理。 <2>
相关文章
相关标签/搜索