【大数据】大数据学习笔记（1）

时间 2019-11-19

标签大数据数据学习笔记繁體版

原文原文链接

1、Hadoop的简介网络

1.Hadoop：一个开源，高可靠，可扩展的分布式计算框架框架

2.Hadoop解决的问题：分布式

（1）海量数据的存储（HDFS）：分布式文件系统，有两个好处，函数

（a）能够动态添加存储系统，这样存储就不会受到限制
（b）元数据备份，这里默认备份三分，能够修改

（2）海量数据的分析（MapReduce）：分而自知，能够把数据分红多分，并行分析处理oop

（3）分布式资源调度（Yarn）：集群之间的调度，好比：CPU、内存等搜索引擎

3.特色.net

4.应用场景

5.Hadoop项目主要模块包括如下四个模块

（1）Hadoop Common:为其余的Hadoop模块提供基础设施

（2）Hadoop HDFS：一个可靠、吞吐量的分布式文件系统

（3）Hadoop MapReduce：一个分布式的离线并行计算框架

（4）Hadoop YARN：一个新的MapReduce框架，任务调度与资源管理

2、MapReduce的使用

1.MapReduce（分布式计算框架）

（1）Map任务处理

（2）Reduce任务处理

转载请注明出处：

【定陶黄公子】