当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系 统成为分布式文件系统。 node
HDFS以流式数据访问模式来存储超大文件,运行于商用硬件集群上。 编程
“超大文件”在这里指具备几百MB、几百GB甚至几百TB大小的文件。目前已经有存储PB级数据的Hadoop集群了。 网络
HDFS的构建思路是这样的:一次写入,屡次读取是最搞高效的访问模式。数据集一般由数据源生成或从数据源复制而来,接着长时间的在此数据集上进行各种分析。每次分析都将涉及该数据集的大部分数据甚至所有,所以读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。 分布式
Hadoop并不须要运行在昂贵且高可靠的硬件上。它是设计运行在商用硬件的集群上的,所以至少对于庞大的集群来讲,节点故障的概率仍是很是高的。HDFS遇到上述故障时,被设计成可以继续运行且不让用户察觉到明显的中断。 oop
因为HDFS是为高数据吞吐量应用优化的,这可能会以高时间延迟为代价的,因此 要求低时间延迟数据访问的应用,不适合在HDFS上运行。 优化
因为namenode将文件系统的元数据存储在内存中,所以该文件系统所能存储的文件总数受限于啊namenode的内存容量。每一个文件,目录和数据块的存储信息大约150字节。举例来讲:若是有一百万个文件,且每一个文件占一个数据块,那么须要300MB内存。尽管存储上百万个文件是可行的,可是存储十亿个文件就超出了当前硬件的能力。 操作系统
HDFS中的文件可能只有一个writer,并且写操做老是将数据添加在文件的末尾。它不支持具备多个写入者的操做,也不支持在文件的任意位置进行修改。可能之后会支持这些操做,但它们相对比较低效。 设计
HDFS中的数据块默认是64MB,与单一磁盘上的文件系统类似,HDFS上的文件也被划分为块大小的多个分块,做为独立的存储单元。但与其余文件系统不一样的是,HDFS中小与一个块大小的文件不会占据整个块的空间。(HDFS的块比磁盘块大的目的是为了最小化寻址开销。) 日志
与磁盘文件系统类似,HDFS中fsck指令能够显示块信息。执行如下命令将列出文件系统中各个文件由哪些块构成:hadoop fsck / -files blocks 接口
HDFS集群有两类节点,是主从结构模式运行,即一个namenode和多个datanode。
NameNode管理文件系统的命名空间。它维护着文件系统树及整棵树内全部的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。Namenode也记录着每一个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,由于这些信息会在系统启动时由数据节点重建。
客户端表明用户经过与namenode和datanode交互来访问整个文件系统。客户端提供一个相似与POSIX(可移植操做系统界面)的文件系统接口,所以用户在编程时无需知道namenode和datanode也可实现其功能。
DataNode是文件系统的工做节点。他们根据须要存储并检索数据块(受客户端或namenode调度),并按期向namenode发送他们所存储的块的列表。
没有namenode,文件系统将没法使用。若是运行namenode服务的机器毁坏,文件系统上全部的文件将会丢失,由于咱们不知道如何根据datanode的块来重建文件,为此Hadoop提供了两种机制(如今主要用第二种):
第一种机制是备份那些组成文件系统元数据持久状态的文件。Hadoop能够经过配置实用namenode在多个文件系统上保存原数据的持久状态。这些写操做是实时同步的,是原子操做。通常的配置是,将持久状态写入本地磁盘的同时,写入一个远程挂在的网络文件系统NFS。
第二种是运行一个辅助namenode,SecondaryNameNode,它不能被用做namenode。SecondaryNameNode的重要做用是按期经过编辑日志合并空间镜像,以防止编辑日志过大。通常SecondaryNameNode在另外一台单独的物理计算机上运行,由于它须要占用大量的CPU时间与NameNode相同容量的内存来执行合并操做。它会保存合并后的命名空间镜像的副本,并在namenode发生故障时启用。可是secondaryNameNode保存的状态老是滞后于主节点,因此当主节点失效时,不免会丢失部分数据。在这种状况下,通常把存储在NFS上的namenode元数据复制到secondaryNameNode并做为新的主NameNode运行。