mapreduce CombineTextInputFormat合并小文件

CombineTextInputFormat是用于合并小文件的。通过调用setMaxInputSplitSize方法设置maxSize。 有两个主要步骤, (1)虚拟存储,先按照指定规则把指定目录下的文件都切分为小于maxSize的更小文件。当然,原本就小于maxSize的小文件不做切分。只有大于maxSIze的小文件会切分的比maxSize更小。切分后的所有文件都是小于maxSize的,当然,这
相关文章
相关标签/搜索