MapReduce原理之---处理数据详细流程

1、任务切分:对文件进行逻辑切片,切片按照范围划分,默认128M一片。 一个文件至少有一个切片,每个切片运行一个maptask,如果文件超过128M,同一个输入文件会有多个maptask运行;为减少资源浪费,如果最后一个切片大小小于1.1*128M,将不会被切分处理。 2、输入对象:FileInputFormat.setInputPaths()方法,指定数据输入路径;输入目录中可以有单个或多个文件
相关文章
相关标签/搜索