Hadoop生态圈之mapreduce

概念 MapReduce是多进程,进程空间独享,方便对资源的管理,消耗更多的启动时间,时效性不高,适合离线处理,高吞吐。mapreduce是hadoop的批量处理计算框架,主要分为map、reduce过程。 map:负责将数据处理为<key,value>形式的数据输出到reduce reduce:负责处理map输出的结果 工作流程 1.从hdfs获取数据。InputFormat:RecordRea
相关文章
相关标签/搜索