Hadoop-5

CombineTextInputFormat切片机制 关于大量小文件的优化策略 1)默认情况下TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个maptask,这样如果有大量小文件,就会产生大量的maptask,处理效率极其低下。 2)优化策略 (1)最好的办法,在数据处理系统的最前端(预处理/采集),将小文件先合并成大文件,再上传到H
相关文章
相关标签/搜索