1、总体思惟导图

2、HDFS(Hadoop分布式文件系统)

说明分布式
- NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由惟一一台主机专门保存,固然这台主机若是出错,NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----若是主NameNode失效,启动备用主机运行NameNode。
- DataNode:分布在廉价的计算机上,用于存储Block块文件。
- Block:将一个文件进行分块,一般是64M。
3、MapReduce

说明oop
首先数字是分布存储在不一样块中的,以某几个块为一个Map,计算出Map中最大的值,而后将每一个Map中的最大值作Reduce操做,Reduce再取最大值给用户。blog