hadoop(适合大数据的分布式存储和分布式计算平台)---总结

HADOOP:
安全


   是一个适合大数据分布式存储(HDFS)并行计算(MapReduce)平台.
架构

   是由Doug Cutting编写的。原来是nutch下的一个子项目,主要用来作搜索引擎。框架


   特色:1.扩容能力强,分布式

         2.成本低:可以使用普通pc集群来实现ide

         3.高效率:经过分发数据,能够实现并行处理数据,使得处理速度很快
oop

         4.可靠性:可以自动维护数据的多个副本,计算任务失败后能自动的从新部署计算任务。
大数据

   架构图:
搜索引擎


Hadoop两大核心:-----------------------------spa


1.HDFS:hadoop Distributed FileSystem(分布式的文件存储系统)
索引

2.MapReduce:并行的计算框架。


HDFS的架构:

   HDFS采用主从结构(master/slave)


   主节点:NameNode  ---- 只有一个

    从节点:DataNode ---- 能够有多个


   NameNode的职责:

           1.接受用户的操做请求

           2.维护文件系统的目录结构

           3.管理文件与block块之间,block与DataNode之间的关系


   DataNode的职责:

           1.存储文件

           2.文件被分红了一个个的block块存储在DataNode节点的磁盘上

           3.为了保证数据的安全,文件会存在多个副本(副本的存放策略:默认有3个副本,一个副本存放在本地机架节点上,一个存放在本地机架的另外一个节点上,最后一个存放在另外一个机架的节点上,这样就减小了机架之间的数据传输,加快了写操做的速率)


   2.MapReduce的架构:


       MapReduce采用了主从架构:


       主节点:JobTracker----只有一个

       从节点:TaskTracker---能够有多个


       jobTracker:

           1.接受客户提交的计算请求

           2.把计算任务分配给TaskTracker执行

           3.监控TaskTracker的执行状况


       TaskTracker:

           1.执行JobTracker分配的计算任务。

相关文章
相关标签/搜索