大数据之路(二)——MapReduce流程详细分析

最近有个任务就是处理上百G的日志文件,为了效率我们首先想到的是用hadoop,而hadoop框架中最重要的一 部分就是MapReduce,下面个人总结下MapReduce的流程:     1、MapRuduce File要处理得文件:File存储在HDFS上,切分成默认64M的Block,存储在多个DataNode节点上   2、MapReduce InputFormat:数据格式定义,例如以\n
相关文章
相关标签/搜索