[ Hadoop ] Hadoop简介

分布式的云计算技术经过整合资源,为下降成本和能源消耗提供了一种简化、集中的计算平台。这种低成本、髙扩展、髙性能的特色促使其迅速发展
Hadoop分布式框架提供了一个分布式系统的基础架构,使用户在不了解分布式底层的状况下也可以开发分布式应用,充分利用由Hadoop统一块儿来的集群存储资源、 网络资源和计算资源,实现基于海量数据的髙速运算和存储web

什么是Hadoop
Hadoop项目及其结构
Hadoop体系结构
Hadoop与分布式开发 
Hadoop计算模沒--- MapReduce
Hadoop数据管理
Hadoop集群安全策略
什么是Hadoop

Hadoop 概述
Hadoop是一个开源分布式计算平台。以 Hadoop分布式文件系统 (Hadoop Distributed FileSystem,HDFS )和 MapReduce 为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
HDFS的高容错性、高伸缩性等优势容许用户将Hadoop部署在低廉的硬件上,造成分布式系统;
MapReduce分布式编程模型容许用户在不了解分布式系统底层细节的状况下开发并行应用程序。
因此用户能够利用Hadoop轻松地组织计算机资源,从而搭建本身的分布式计算平台, 而且能够充分利用集群的计算和存储能力,完成海量数据的处理数据库

Hadoop 1.0版本已经发展成为包含HDFS、MapReduce子项目,与 Pig、ZooKecpcr, Hive、HBase等项目相关的大型应用工程(大型工程项目是指投资规模巨大的工程项目。工程项目是指通常的按设计文件进行实施,经济上统一核算,行政上有独立组织并实行统一管理,完成后可独立发挥设计文件所要求的做用的项目)编程

Hadoop的功能与做用
大数据时代须要数据进行分析处理,以获取有价值的信息。那么如何高效存储管理这些数据、如何分析这些数据呢?这时能够选用Hadoop系统。在处理这类问题时,它采用分布式存储方式来提升读写速度和扩大存储容量:采用MapReduce整合分布式文件系统上的数据,保证高速分析处理数据;与此同时还采用存储冗余数据来保证数据的安全性安全

Hadoop 的优点
高可靠性:按位存储和处理数据的能力值得信赖
高扩展性:hadoop在计算机集簇间分配数据完成计算任务,这些集簇能够方便的扩展节点
高效性:在节点之间动态的移动数据,保证动态平衡。因此处理速度很快
高容错性:自动保存数据的多份副本,并能自动将失败的任务从新分配网络

Hadoop项目及其结构

如今Hadoop是一个多项目集合,以HDFS 和 MapReduce 为核心,Hive、HBase等项目也不可缺。她们提供了互补的服务或在核心层上提供了更高层的服务架构

Common: Common是为Hadoop其余子项目提供支持的经常使用工具,它主要包括FileSystem. RPC和串行化库框架

Avro: Avro是用于数据序列化的系统分布式

MapReduce : MapReduce是一种编程模型,用于大规模数据集(大于1T B )的并行
运算svg

HDFS : HDFS是一个分布式文件系统工具

Chukwa : Chukwa是开源的数据收集系统,.用于监控ffl分析大型分布式系统的数据

Hive: 是一个创建在Hadodp基础之上的数据仓库,提供了一些对Hadoop文件中的数据集进行数据整理、特殊査询和分析存储的工具

HBase : HBase是一个分布式的、面向列的开源数据库

Pig ; Pig是一个对大型数据集进行分析、和评估的平台

ZooKeeper : ZooKeeper是一个为分布式应用所设计的开源协调服务

Hadoop体系结构

Hadoop与分布式开发

Hadoop计算模型 MapReduce

Hadoop数据管理

HDFS的数据管理

HBase的数据管理

Hive的数据管理

Hadoop集群安全策略