Hadoop中的做业(Job)(6)

时间 2020-01-04

标签 hadoop job 栏目 Hadoop 繁體版

原文原文链接

MapReduce做业：函数

MapReduce做业(Job)是客户端须要执行的一个工做单元：它包括输入数据，MapReduce程序和配置信息。oop

Hadoop做业：spa

Hadoop是将做业分红若干个小任务(Task)来执行，其中包括两类任务：Map任务和Reduce任务。有两类节点控制着做业执行过程：一个JobTracket及一系列TaskTracker。JobTracker经过调度TaskTracker上运行的任务，来协调全部运行在系统上的做业。TaskTracker在运行任务的同时将运行进度报告发送给JobTracker，JobTracker由此记录每项做业任务的总体进度状况，若是其中一个任务失败，JobTracker能够在另一个TaskTracker节点上从新调度该任务。it

Map任务将其输出写入到本地硬盘，而非HDFS，这是为何？io

由于Map的输出是中间结果，该中间结果由reduce任务处理后才产生最终输出结构，并且一旦做业完成，Map的输出结果能够被删除，所以，若是把它存储在HDFS中并实现备份，不免小题大作。若是该节点上运行的Map任务将Map中间结果传送到reduce任务以前失败，Hadoop将在另外一个节点上从新运行这个map任务以再次构建Map中间结果。配置

若是有多个Reduce任务，则每一个Map任务都会对其输出进行分区(Partition)，即为每一个Reduce任务建一个分区，每一个分区有许多键（及其对应值），但每一个键对应的键/值对记录都在同一分区中。分区由用户定义的分区函数控制，但一般默认的分区器（Partitioner）经过哈希函数来分区的，这种方法很高效。map

Name：Xr程序

Date：2014-02-25 21:41
方法