HDFS体系结构简介及优缺点数据库
体系结构简介网络
HDFS是一个主/从(Master、Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统同样,能够经过目录路径对文件执行CRUD(建立,读取,修改,删除)等操做。但因为分布式存储的性质,HDFS集群拥有一个NameNode和多个DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端经过同NameNode和DataNode的交互访问文件系统。客户端联系NameNode以获取文件的元数据,而真正的文件I/O操做是直接和DataNode进行交互的。分布式
NameNode:oop
NameNode是整个文件系统的管理节点.spa
做用:日志
一、负责管理文件系统的命名空间、集群配置信息和存储块的复制;xml
二、维护着整个文件系统的文件目录树和文件根目录的元信息和每一个文件对应的数据块列表;内存
三、接收用户的操做请求;同步
四、管理文件与block之间的关系,block与DataNode之间的关系;it
NameNode会将文件系统的Meta-Data存储在内存中,这些信息主要包括了文件信息、每个文件对应的文件块的信息和每个文件块在DataNode的信息等。没有NameNode,文件系统将没法使用。实现上,若是运行NameNode服务的机器毁坏,文件系统上全部的文件将会丢失,由于咱们不知道若是根据DataNode的块来重建文件。所以,对NameNode实现容错很是重要,Hadoop为此提供了2种机制:
第一种机制:备份哪些组成文件系统元数据持久状态的文件。Hadoop能够经过配置使NameNode在多个文件系统上保存元数据的持久状态,这些写操做是实时同步的,是原子操做,通常的配置是将持久状态写入本地磁盘的同时,写入一个远程挂载的网络文件系统(NFS)。
第二种机制:运行一个辅助NameNode,但它不能被用做NameNode.这个辅助NameNode的重要做用是按期经过编辑日志合并命名空间镜像,以防止编辑日志过大。这个辅助NameNode通常在另外一台单独的物理计算机上运行,由于它须要占用大量CPU时间与NameNode相同容量的内存来执行合并操做。它会报出合并后的命名空间镜像的副本,并在NameNode发送故障时启用,可是,辅助NameNoDE报错的状态总数滞后于主节点,因此在主节点所有失效时,不免会丢失部分数据。在这种状况下,通常把存储在NFS上的NameNode元数据复制到辅助NameNode并做为新的主NameNode运行。
NameNode中的文件:
fsimage:元数据镜像文件。存储某一时段NameNode内存中的元数据信息。
edits:操做日志文件。
fstime:保存最近一次checkpoint的时间。
SecondaryNameNode:
HA(双机集群系统简称)的一个解决方案,并不是NameNode的热备。
做用:
一、辅助NameNode分担其工做量;
二、按期合并fsimage和edits,并推送给NameNode;
三、减小NameNode启动时间;
四、在紧急状况下,可辅助恢复NameNode;
执行过程:
从NameNode上下载元数据信息(fsimage,edits),而后把两者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。
DataNode:
DataNode是提供真实文件数据的存储服务,是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将全部存在的Block信息发送给NameNode。
DataNode也是文件系统的工做节点,它们根据须要存储并检索数据库(受客户端或NameNode调度),而且按期向NameNode发送它们所在存储的块的列表。
块(Block)是DataNode中最基本的存储单位。
数据块的概念:
对于文件内存而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每个块称为一个Block。
在HDFS中,HDFS默认Block大小是64MB,不一样于普通文件系统的是,HDFS中,若是一个文件小于一个数据块的大小,并不会占用整个block的存储空间。
为何HDFS中的数据块如此之大?
HDFS的块比磁盘块大,其目的是为了最小化寻址开销。若是块设置得足够大,从磁盘传输数据的时间能够明显大于这个快开始位置所需的时间。这样,传输一个由多个块组成的文件的时间取决于磁盘传输速率。
在不少状况下HDFS使用128MB的设置。可是该参数也不会设置得过大,MapReduce中的map任务一般一次处理一个块中的数据,所以若是任务数太少(少于集群中的节点数据),做业的运行速度就会比较慢。
每一个文件有多个复本,HDFS中默认是3个。可在hdfs-site.xml中配置(dfs.replication属性)。
HDFS中的Master:
在Hadoop中的conf下的Master配置文件中,在此文件中的节点主要的做用:
一、管理HDFS的名称空间;
二、管理数据块映射信息;
三、配置复本策略;
四、处理客户端读写请求;
HDFS中的Slave:
配置在Hadoop中conf目录下的Slaves文件中的节点主要做用:
一、存储实际的数据块;
二、执行数据块读/写;
HDFS中的Client:
做用:
一、文件切分与NameNode交互,获取文件位置信息;
二、与DataNode交互,读取或者写入数据;
三、管理HDFS;
四、访问HDFS;