MapReduce的输入输出格式

时间 2019-11-18

原文原文链接

默认的mapper是IdentityMapper，默认的reducer是IdentityReducer，它们将输入的键和值原封不动地写到输出中。html

默认的partitioner是HashPartitinoer，它根据每条记录的键进行哈希操做来分区。数据库

输入文件：文件是MapReduce任务的数据的初始存储地。正常状况下，输入文件通常是存在HDFS里。这些文件的格式能够是任意的；咱们可使用基于行的日志文件，也可使用二进制格式，多行输入记录或其它一些格式。这些文件会很大—数十G或更大。数组

小文件与CombineFileInputFormatapp

Hadoop在处理大量小文件时的性能稍微逊色一些，一个缘由是FileInputFormat生成的InputSplit老是一个整个或一部分的输入文件。若是文件比较小，而且数量不少，每次map操做的时候只会处理不多的输入数据，可是会有不少map任务，每次新的map操做都回形成必定的性能损失。框架

CombineFileInputFormat能够缓解这个问题，它对这种状况作了必定的优化。FileInputFormat将每一个文件分割成1个或多个单元，而CombineFileInputFormat能够将多个文件打包到一个输入单元中，这样每次map操做就会有更多的数据来处理。CombineFileInputFormat会考虑到节点和集群的位置信息以决定哪些文件应该打包到一个单元中，全部本来的MapReduce的效率就会降低。oop

　　输入格式：InputFormat类定义了如何分割和读取输入文件，它提供有下面的几个功能：性能

选择做为输入的文件或对象；
定义把文件划分到任务的InputSplits；
为RecordReader读取文件提供了一个工厂方法；

　　Hadoop自带了好几个输入格式。其中有一个抽象类叫FileInputFormat，全部操做文件的InputFormat类都是从它那里继承功能和属性。当开启Hadoop做业时，FileInputFormat会获得一个路径参数，这个路径内包含了所须要处理的文件，FileInputFormat会读取这个文件夹内的全部文件（译注：默认不包括子文件夹内的），而后它会把这些文件拆分红一个或多个的InputSplit。你能够经过JobConf对象的setInputFormat()方法来设定应用到你的做业输入文件上的输入格式。下表给出了一些优化

标准的输入格式：spa

输入格式日志	描述	键	值
TextInputFormat	默认格式，读取文件的行	行的字节偏移量	行的内容
KeyValueInputFormat	把行解析为键值对	第一个tab字符前的全部字符	行剩下的内容
SequenceFileInputFormat	Hadoop定义的高性能二进制格式	用户自定义	用户自定义
SequenceFileAsTextInputFormat	是SequenceFileInputFormat的变体，它将键和值转换为Text对象。转换的时候会调用键和值的toString方法。这个格式能够是顺序文件做为流操做的输入。
SequenceFileAsBinaryInputFormat	SequenceFileAsBinaryInputFormat是SequenceFileInputFormat的另外一种变体，它将顺序文件的键和值做为二进制对象，它们被封装为BytesWritable对象，于是应用程序能够任意地将这些字节数组解释为他们想要的类型。
DBInputForma	DBInputForma是一个使用JDBC而且从关系数据库中读取数据的一种输入格式。因为它没有任何碎片技术，因此在访问数据库的时候必须很是当心，太多的mapper可能会事数据库受不了。所以DBInputFormat最好在加载小量数据集的时候用。

表4.1MapReduce提供的输入格式

　　默认的输入格式是TextInputFormat，它把输入文件每一行做为单独的一个记录，但不作解析处理。这对那些没有被格式化的数据或是基于行的记录来讲是颇有用的，好比日志文件。更有趣的一个输入格式是KeyValueInputFormat，这个格式也是把输入文件每一行做为单独的一个记录。然而不一样的是TextInputFormat把整个文件行当作值数据，KeyValueInputFormat则是经过搜寻tab字符来把行拆分为键值对。这在把一个MapReduce的做业输出做为下一个做业的输入时显得特别有用，由于默认输出格式（下面有更详细的描述）正是按KeyValueInputFormat格式输出数据。最后来说讲SequenceFileInputFormat，它会读取特殊的特定于Hadoop的二进制文件，这些文件包含了不少能让Hadoop的mapper快速读取数据的特性。Sequence文件是块压缩的并提供了对几种数据类型（不只仅是文本类型）直接的序列化与反序列化操做。Squence文件能够做为MapReduce任务的输出数据，而且用它作一个MapReduce做业到另外一个做业的中间数据是很高效的。

　　输入块（InputSplit）：一个输入块描述了构成MapReduce程序中单个map任务的一个单元。把一个MapReduce程序应用到一个数据集上，便是指一个做业，会由几个（也可能几百个）任务组成。Map任务可能会读取整个文件，但通常是读取文件的一部分。默认状况下，FileInputFormat及其子类会以64MB（与HDFS的Block默认大小相同，译注：Hadoop建议Split大小与此相同）为基数来拆分文件。你能够在hadoop-site.xml（译注：0.20.*之后是在mapred-default.xml里）文件内设定mapred.min.split.size参数来控制具体划分大小，或者在具体MapReduce做业的JobConf对象中重写这个参数。经过以块形式处理文件，咱们可让多个map任务并行的操做一个文件。若是文件很是大的话，这个特性能够经过并行处理大幅的提高性能。更重要的是，由于多个块（Block）组成的文件可能会分散在集群内的好几个节点上（译注：事实上就是这样），这样就能够把任务调度在不一样的节点上；所以全部的单个块都是本地处理的，而不是把数据从一个节点传输到另一个节点。固然，日志文件能够以明智的块处理方式进行处理，可是有些文件格式不支持块处理方式。针对这种状况，你能够写一个自定义的InputFormat，这样你就能够控制你文件是如何被拆分（或不拆分）成文件块的。自定义的文件格式在第五部分有描述。
　　输入格式定义了组成mapping阶段的map任务列表，每个任务对应一个输入块。接着根据输入文件块所在的物理地址，这些任务会被分派到对应的系统节点上，可能会有多个map任务被分派到同一个节点上。任务分派好后，节点开始运行任务，尝试去最大并行化执行。节点上的最大任务并行数由mapred.tasktracker.map.tasks.maximum参数控制。
　　记录读取器（RecordReader）：InputSplit定义了如何切分工做，可是没有描述如何去访问它。 RecordReader类则是实际的用来加载数据并把数据转换为适合mapper读取的键值对。RecordReader实例是由输入格式定义的，默认的输入格式，TextInputFormat，提供了一个LineRecordReader，这个类的会把输入文件的每一行做为一个新的值，关联到每一行的键则是该行在文件中的字节偏移量。RecordReader会在输入块上被重复的调用直到整个输入块被处理完毕，每一次调用RecordReader都会调用Mapper的map()方法。
　　Mapper：Mapper执行了MapReduce程序第一阶段中有趣的用户定义的工做。给定一个键值对，map()方法会生成一个或多个键值对，这些键值对会被送到Reducer那里。对于整个做业输入部分的每个map任务（输入块），每个新的Mapper实例都会在单独的Java进程中被初始化，mapper之间不能进行通讯。这就使得每个map任务的可靠性不受其它map任务的影响，只由本地机器的可靠性来决定。map()方法除了键值对外还会接收额外的两个参数（译注：在0.20.×后的版本，接口已变化，由Context对象代替这两个参数）：

OutputCollector对象有一个叫collect()的方法，它能够利用该方法把键值对送到做业的reduce阶段。
Reporter对象提供当前任务的信息，它的getInputSplit()方法会返回一个描述当前输入块的对象，而且还容许map任务提供关于系统执行进度的额外信息。setStatus()方法容许你生成一个反馈给用户的状态消息，incrCounter()方法容许你递增共享的高性能计数器，除了默认的计数器外，你还能够定义更多的你想要的计数器。每个mapper均可以递增计数器，JobTracker会收集由不一样处理获得的递增数据并把它们汇集在一块儿以供做业结束后的读取。

　　Partition & Shuffle：当第一个map任务完成后，节点可能还要继续执行更多的map任务，但这时候也开始把map任务的中间输出交换到须要它们的reducer那里去，这个移动map输出到reducer的过程叫作shuffle。每个reduce节点会分派到中间输出的键集合中的一个不一样的子集合，这些子集合（被称为“partitions”）是reduce任务的输入数据。每个map任务生成的键值对可能会隶属于任意的partition，有着相同键的数值老是在一块儿被reduce，无论它是来自那个mapper的。所以，全部的map节点必须就把不一样的中间数据发往何处达成一致。Partitioner类就是用来决定给定键值对的去向，默认的分类器（partitioner）会计算键的哈希值并基于这个结果来把键赋到相应的partition上，自定义的分类器在第五部分有详细描述。
　　排序：每个reduce任务负责归约（reduceing）关联到相同键上的全部数值，每个节点收到的中间键集合在被送到具体的reducer那里前就已经自动被Hadoop排序过了。
　　归约（Reduce）：每一个reduce任务都会建立一个Reducer实例，这是一个用户自定义代码的实例，负责执行特定做业的第二个重要的阶段。对于每个已赋予到reducer的partition内的键来讲，reducer的reduce()方法只会调用一次，它会接收一个键和关联到键的全部值的一个迭代器，迭代器会以一个未定义的顺序返回关联到同一个键的值。reducer也要接收一个OutputCollector和Report对象，它们像在map()方法中那样被使用。
　　输出格式：提供给OutputCollector的键值对会被写到输出文件中，写入的方式由输出格式控制。OutputFormat的功能跟前面描述的InputFormat类很像，Hadoop提供的OutputFormat的实例会把文件写在本地磁盘或HDFS上，它们都是继承自公共的FileInputFormat类。每个reducer会把结果输出写在公共文件夹中一个单独的文件内，这些文件的命名通常是part-nnnnn，nnnnn是关联到某个reduce任务的partition的id，输出文件夹经过FileOutputFormat.setOutputPath() 来设置。你能够经过具体MapReduce做业的JobConf对象的setOutputFormat()方法来设置具体用到的输出格式。下表给出了已提供的输出格式：

输出格式	描述
TextOutputFormat	默认的输出格式，以 "key \t value" 的方式输出行
SequenceFileOutputFormat	输出二进制文件，适合于读取为子MapReduce做业的输入
NullOutputFormat	忽略收到的数据，即不作输出
SequenceFileAsBinaryOutputFormat	与SequenceFileAsBinaryInputFormat相对应，它将键/值对看成二进制数据写入一个顺序文件
MapFileOutputFormat	MapFileOutputFormat将结果写入一个MapFile中。MapFile中的键必须是排序的，因此在reducer中必须保证输出的键有序。

表4.2: Hadoop提供的输出格式
　　Hadoop提供了一些OutputFormat实例用于写入文件，基本的（默认的）实例是TextOutputFormat，它会以一行一个键值对的方式把数据写入一个文本文件里。这样后面的MapReduce任务就能够经过KeyValueInputFormat类简单的从新读取所需的输入数据了，并且也适合于人的阅读。还有一个更适合于在MapReduce做业间使用的中间格式，那就是SequenceFileOutputFormat，它能够快速的序列化任意的数据类型到文件中，而对应SequenceFileInputFormat则会把文件反序列化为相同的类型并提交为下一个Mapper的输入数据，方式和前一个Reducer的生成方式同样。NullOutputFormat不会生成输出文件并丢弃任何经过OutputCollector传递给它的键值对，若是你在要reduce()方法中显式的写你本身的输出文件而且不想Hadoop框架输出额外的空输出文件，那这个类是颇有用的。
　　RecordWriter：这个跟InputFormat中经过RecordReader读取单个记录的实现很类似，OutputFormat类是RecordWriter对象的工厂方法，用来把单个的记录写到文件中，就像是OuputFormat直接写入的同样。
　　Reducer输出的文件会留在HDFS上供你的其它应用使用，好比另一个MapReduce做业，或一个给人工检查的单独程序。

转自：http://www.cnblogs.com/spork/