大数据之Hadoop_MapReduce处理数据内部基本流程

MR处理数据内部基本流程 一.任务切分 1.根据文件的大小,及文件的个数进行任务切分,如:有一个文件200M,还有另一个文件100M,就会先将200M的文件按数据切块(hdfs默认128M,本地默认32M)的原理分成两块,然后这两个文件就会被划分成三个任务,这就叫数据切块,和任务切分 2.任务切分后,就会去找LineRecordReader读取数据, 在LineRecordReader就会使用re
相关文章
相关标签/搜索