CombineTextInputFormat切片机制优化大量小文件

默认状况下TextInputformat对任务的切片机制是按文件规划切片,无论文件多小,都会有一个单独的切片,都会交给一个maptask,若是有大量的小文件,就会产生大量的maptask,处理效率及其低下 优化策略 (1) 最好的办法,在数据处理系统的最前端(预处理/采集),将小文件先合并成大文件,再上传到HDFS后续分析前端 (2)补救措施:若是已是大量小文件在HDFS中了,能够使用另外一种In
相关文章
相关标签/搜索