Hadoop InputFormat OutputFormat

时间 2019-11-09

标签 hadoop inputformat outputformat 栏目 Hadoop 繁體版

原文原文链接

InputFormat有两个抽象方法：spa

getSplits createRecordReader

InputSplits 将数据按照Split进行切分，一个Split分给一个task执行。

RecordReader 在Task中将Split按照key value进行切分，每一个RecordReader切分的数据都给map方法执行一遍。

RecordReader三个抽象方法：

initialize 用来seek位置等

getCurrentKey getCurrentValue map读取key value

nextKeyValue 生成key value

getProgress

close

OutputFormat RecordWriter

OutputFormat抽象方法

checkOutputSpecs

getRecordWriter

OutputCommitter作繁重的工做，如create目录，rename，close等

相关文章

相关标签/搜索

hadoop+kerberos

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<