MapReduce做业:函数
MapReduce做业(Job)是客户端须要执行的一个工做单元:它包括输入数据,MapReduce程序和配置信息。oop
Hadoop做业:spa
Hadoop是将做业分红若干个小任务(Task)来执行,其中包括两类任务:Map任务和Reduce任务。有两类节点控制着做业执行过程:一个JobTracket及一系列TaskTracker。JobTracker经过调度TaskTracker上运行的任务,来协调全部运行在系统上的做业。TaskTracker在运行任务的同时将运行进度报告发送给JobTracker,JobTracker由此记录每项做业任务的总体进度状况,若是其中一个任务失败,JobTracker能够在另一个TaskTracker节点上从新调度该任务。it
Map任务将其输出写入到本地硬盘,而非HDFS,这是为何?io
由于Map的输出是中间结果,该中间结果由reduce任务处理后才产生最终输出结构,并且一旦做业完成,Map的输出结果能够被删除,所以,若是把它存储在HDFS中并实现备份,不免小题大作。若是该节点上运行的Map任务将Map中间结果传送到reduce任务以前失败,Hadoop将在另外一个节点上从新运行这个map任务以再次构建Map中间结果。配置
若是有多个Reduce任务,则每一个Map任务都会对其输出进行分区(Partition),即为每一个Reduce任务建一个分区,每一个分区有许多键(及其对应值),但每一个键对应的键/值对记录都在同一分区中。分区由用户定义的分区函数控制,但一般默认的分区器(Partitioner)经过哈希函数来分区的,这种方法很高效。map
Name:Xr程序
Date:2014-02-25 21:41
方法