转载--Job的数据输入格式化器—InputFormat

时间 2020-12-27

原文原文链接

Hadoop被设计用来处理海量数据，这种数据可以是结构化的，半结构化的，甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中，也可能存放在DB中)。它处理数据的核心就是map-reduce模型，但是，无论是map还是reduce，它们的输入输出数据都是key-value对的形式，这种key-value对的形式我们可以看做是结构化的数据。同时，对于reduce的输入，当然就是map的输出