MR知识点

MR:数据处理的编程模型 MR原理 输入文切割(默认按照最大切片(Long最大值),最小切片(>=1),块大小取(默认128M)三者中间值),形成k-v,并发执行。 k-v进入map,执行map函数 shuffle:根据map的输出,利用缓冲写到内存。根据reduce个数进行预分区、预排序,其结果在网络间分发(suffer),作为reduce的输入。 复制map的输出文件,合并,执行reduce函
相关文章
相关标签/搜索