MapReduce中FileInputFormat和CombineTextInputFormat切片输入机制

首先要知道两个概念:      数据块:Block是HDFS物理上把数据分成一块一块。      数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度,而每个切片都会分配给一个MapTask进行处理,但却不是并行MapTask数越多越快(思考:1G的数据,启动8个MapTask,可以
相关文章
相关标签/搜索