大数据笔记（二）——Apache Hadoop的体系结构

时间 2020-07-07

标签数据笔记 apache hadoop 体系结构栏目 Apache 繁體版

原文原文链接

一.分布式存储数据库

　　　　1.维护HDFS文件系统，是HDFS的主节点。分布式

　　　　2.接收客户端的请求：上传、下载文件、建立目录等。oop

　　　　3.记录客户端操做的日志（edits文件），保存了HDFS最新的状态spa

　　　　　　1）Edits文件保存了自最后一次检查点以后全部针对HDFS文件系统的操做，好比：增长文件、重命名文件、删除目录等3d

　　　　　　2）保存目录：$HADOOP_HOME/tmp/dfs/name/current日志

　　　　能够使用 hdfs oev -i 命令将日志（二进制）输出为 XML文件xml

　　　　hdfs oev -i edits_inprogress_0000000000000005499 -o ~/temp/log.xmlblog

　　　　4.维护文件元信息，将内存中不经常使用的文件元信息保存在硬盘上（fsimage文件）内存

　　　　　　1）fsimage是HDFS文件系统存于硬盘中的元数据检查点，里面记录了自最后一次检查点以前HDFS文件系统中全部目录和文件的序列化信息hadoop

　　　　　　2）保存目录：edits

　　　　 3）能够使用 hdfs oev -i 命令将日志（二进制）输出为 XML文件

　　　　1.以数据块为单位，保存数据

　　　　　　　1）Hadoop1.0的数据块大小：64M

　　　　　　 2）Hadoop2.0的数据库大小：128M

　　　　 2.在全分布模式下，至少两个DataNode节点

3.数据保存的目录：由 hadoop.tmp.dir 参数指定

　　　　1.主要做用：合并日志

　　　　2.合并时机：HDFS发出检查点的时候

　　　　3.日志合并过程：

　　　　1）NameNode单点故障问题

　　　　　解决方案：Hadoop2.0中，使用Zookeeper实现NameNode的HA功能

　　　　2）NameNode压力过大，且内存受限，影响系统扩展性

　　　　　解决方案：Hadoop2.0中，使用NameNode联盟实现水平扩展

二.YARN：分布式计算（MapReduce）

　　　　1.接收客户端的请求，执行任务

　　　　 2.分配资源

　　　　 3.分配任务

　　　从 DataNode上获取数据，执行任务

三.HBase的体系结构