MapReduce之CombineFileInputFormat自定义切片机制-04

默认情况下TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个maptask,这样如果有大量小文件,就会产生大量的maptask,处理效率极其低下. 优化策略 1.最好的办法,在数据处理系统的最前端,将小文件先合并成大文件,再传到HDFS做后续分析. 2.补救措施:如果已经是大量小文件再HDFS中了,可以使用另一种InputFormat来
相关文章
相关标签/搜索