MR读取大量小文件优化

背景 平台打印的日志是以100M为一个文件,压缩后在10M-20M之间,所以,经过传文件方式到bi的数据,通常一个文件为10M-20M;node 经过kafka传输的日志,取决于日志量的大小和sdk活跃的时段,所以对于量小的日志,常常会出现kB级别大小的文件,以下:apache mapreduce在处理小文件时,每一个小文件都须要建立一个map任务,对于有海量小文件的状况,会建立大量的map任务,
相关文章
相关标签/搜索