Hadoop 三剑客之 —— 分布式文件存储系统 HDFS

时间 2019-12-10

标签 hadoop 剑客分布式文件存储系统 hdfs 栏目 Hadoop 繁體版

原文原文链接

1、介绍

HDFS （Hadoop Distributed File System）是Hadoop下的分布式文件系统，具备高容错、高吞吐量等特性，能够部署在低成本的硬件上。html

2、HDFS 设计原理

2.1 HDFS 架构

HDFS 遵循主/从架构，由单个NameNode(NN)和多个DataNode(DN)组成：node

NameNode : 负责执行有关文件系统命名空间的操做，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。
DataNode：负责提供来自文件系统客户端的读写请求，执行块的建立，删除等操做。

2.2 文件系统命名空间

HDFS的文件系统命名空间的层次结构与大多数文件系统相似(如Linux)，支持目录和文件的建立、移动、删除和重命名等操做，支持配置用户和访问权限，但不支持硬连接和软链接。NameNode负责维护文件系统名称空间，记录对名称空间或其属性的任何更改。git

2.3 数据复制

因为Hadoop被设计运行在廉价的机器上，这意味着硬件是不可靠的，为了保证容错性，HDFS提供了数据复制机制。HDFS 将每个文件存储为一系列块，每一个块由多个副原本保证容错，块的大小和复制因子能够自行配置（默认状况下，块大小是128M，默认复制因子是3）。github

2.4 数据复制的实现原理

大型的HDFS实例在一般分布在多个机架的多台服务器上，不一样机架上的两台服务器之间经过交换机进行通信。在大多数状况下，同一机架中的服务器间的网络带宽大于不一样机架中的服务器之间的带宽。所以HDFS采用机架感知副本放置策略，对于常见状况，当复制因子为3时，HDFS的放置策略是：apache

在写入程序位于datanode上时，就优先将写入文件的一个副本放置在该datanode上，不然放在随机datanode上。以后在另外一个远程机架上的任意一个节点上放置另外一个副本，并在该机架上的另外一个节点上放置最后一个副本。此策略能够减小机架间的写入流量，从而提升写入性能。服务器

若是复制因子大于3，则随机肯定第4个和以后副本的放置位置，同时保持每一个机架的副本数量低于上限，上限值一般为（复制系数 - 1）/机架数量 + 2，须要注意的是不容许同一个dataNode上具备同一个块的多个副本。网络

2.5 副本的选择

为了最大限度地减小带宽消耗和读取延迟，HDFS在执行读取请求时，优先读取距离读取器最近的副本。若是在与读取器节点相同的机架上存在副本，则优先选择该副本。若是HDFS群集跨越多个数据中心，则优先选择本地数据中心上的副本。架构

2.6 架构的稳定性

1. 心跳机制和从新复制

每一个DataNode按期向NameNode发送心跳消息，若是超过指定时间没有收到心跳消息，则将DataNode标记为死亡。NameNode不会将任何新的IO请求转发给标记为死亡的DataNode，也不会再使用这些DataNode上的数据。因为数据再也不可用，可能会致使某些块的复制因子小于其指定值，NameNode会跟踪这些块，并在必要的时候进行从新复制。框架

2. 数据的完整性

因为存储设备故障等缘由，存储在DataNode上的数据块也会发生损坏。为了不读取到已经损坏的数据而致使错误，HDFS提供了数据完整性校验机制来保证数据的完整性，具体操做以下：分布式

当客户端建立HDFS文件时，它会计算文件的每一个块的校验和，并将校验和存储在同一HDFS命名空间下的单独的隐藏文件中。当客户端检索文件内容时，它会验证从每一个DataNode接收的数据是否与存储在关联校验和文件中的校验和匹配。若是匹配失败，则证实数据已经损坏，此时客户端会选择从其余DataNode获取该块的其余可用副本。

3.元数据的磁盘故障

FsImage和EditLog是HDFS的核心数据，这些数据的意外丢失可能会致使整个HDFS服务不可用。为了不这个问题，能够配置NameNode使其支持FsImage和EditLog多副本同步，这样FsImage或EditLog的任何改变都会引发每一个副本FsImage和EditLog的同步更新。

4.支持快照

快照支持在特定时刻存储数据副本，在数据意外损坏时，能够经过回滚操做恢复到健康的数据状态。

3、HDFS 的特色

3.1 高容错

因为HDFS 采用数据的多副本方案，因此部分硬件的损坏不会致使所有数据的丢失。

3.2 高吞吐量

HDFS设计的重点是支持高吞吐量的数据访问，而不是低延迟的数据访问。

3.3 大文件支持

HDFS适合于大文件的存储，文档的大小应该是是GB到TB级别的。

3.3 简单一致性模型

HDFS更适合于一次写入屡次读取(write-once-read-many)的访问模型。支持将内容追加到文件末尾，但不支持数据的随机访问，不能从文件任意位置新增数据。

3.4 跨平台移植性

HDFS具备良好的跨平台移植性，这使得其余大数据计算框架都将其做为数据持久化存储的首选方案。

附：图解HDFS存储原理

说明：如下图片引用自博客：翻译经典 HDFS 原理讲解漫画

1. HDFS写数据原理

2. HDFS读数据原理

3. HDFS故障类型和其检测方法

第二部分：读写故障的处理

第三部分：DataNode故障处理

副本布局策略：

参考资料

Apache Hadoop 2.9.2 > HDFS Architecture
Tom White . hadoop权威指南 [M] . 清华大学出版社 . 2017.
翻译经典 HDFS 原理讲解漫画

更多大数据系列文章能够参见我的 GitHub 开源项目：大数据入门指南