pig数据导入性能优化(map端)

导言:众所周知,MapReduce的数据输入是以HDFS的数据块大小为基本单位的,加入某集群HDFS的block的大小为128MB。那么,当咱们要处理的数据大小是在120MB左右,map端就不会出现因为数据分布不均匀而致使的数据倾斜。web 下面介绍怎么控制map端的输出在120MB左右的方法,该方法对于日志的导入有很大的帮助,可让map的输出均匀的输出。sql 本人所处理的原始数据是大量的日志,
相关文章
相关标签/搜索