1、Hadoop的简介网络
1.Hadoop:一个开源,高可靠,可扩展的分布式计算框架框架
2.Hadoop解决的问题:分布式
(1)海量数据的存储(HDFS):分布式文件系统,有两个好处,函数
(a)能够动态添加存储系统,这样存储就不会受到限制 (b)元数据备份,这里默认备份三分,能够修改
(2)海量数据的分析(MapReduce):分而自知,能够把数据分红多分,并行分析处理oop
(3)分布式资源调度(Yarn):集群之间的调度,好比:CPU、内存等搜索引擎
3.特色.net
扩容能力比较强日志
成本低(普通PC机均可以)code
高效率(Hadoop会对数据进行分片处理)blog
可靠性(自动备份,自动找回数据等功能)
4.应用场景
5.Hadoop项目主要模块包括如下四个模块
(1)Hadoop Common:为其余的Hadoop模块提供基础设施
(2)Hadoop HDFS:一个可靠、吞吐量的分布式文件系统
(3)Hadoop MapReduce:一个分布式的离线并行计算框架
(4)Hadoop YARN:一个新的MapReduce框架,任务调度与资源管理
2、MapReduce的使用
1.MapReduce(分布式计算框架)
(1)Map任务处理
(2)Reduce任务处理
转载请注明出处:
【定陶黄公子】