Hadoop之HDFS（二）HDFS基本原理

时间 2019-11-12

标签 hadoop hdfs 基本原理栏目 Hadoop 繁體版

原文原文链接

HDFS 基本原理

1，为何选择 HDFS 存储数据

　之因此选择 HDFS 存储数据，由于 HDFS 具备如下优势：node

一、高容错性缓存

数据自动保存多个副本。它经过增长副本的形式，提升容错性。
某一个副本丢失之后，它能够自动恢复，这是由 HDFS 内部机制实现的，咱们没必要关心。

二、适合批处理服务器

它是经过移动计算而不是移动数据。
它会把数据位置暴露给计算框架。

三、适合大数据处理网络

处理数据达到 GB、TB、甚至PB级别的数据。
可以处理百万规模以上的文件数量，数量至关之大。
可以处理10K节点的规模。

四、流式文件访问架构

一次写入，屡次读取。文件一旦写入不能修改，只能追加。
它能保证数据的一致性。

五、可构建在廉价机器上并发

它经过多副本机制，提升可靠性。
它提供了容错和恢复机制。好比某一个副本丢失，能够经过其它副原本恢复。

　　固然 HDFS 也有它的劣势，并不适合全部的场合：app

一、低延时数据访问框架

好比毫秒级的来存储数据，这是不行的，它作不到。
它适合高吞吐率的场景，就是在某一时间内写入大量的数据。可是它在低延时的状况下是不行的，好比毫秒级之内读取数据，这样它是很难作到的。

二、小文件存储分布式

存储大量小文件(这里的小文件是指小于HDFS系统的Block大小的文件（默认64M）)的话，它会占用 NameNode大量的内存来存储文件、目录和块信息。这样是不可取的，由于NameNode的内存老是有限的。
小文件存储的寻道时间会超过读取时间，它违反了HDFS的设计目标。

三、并发写入、文件随机修改oop

一个文件只能有一个写，不容许多个线程同时写。
仅支持数据 append（追加），不支持文件的随机修改。

2，HDFS 如何存储数据

　　　　　　　　　　　　　　　　　　HDFS的架构图

　　HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。下面咱们分别介绍这四个组成部分

一、Client：就是客户端。

文件切分。文件上传 HDFS 的时候，Client 将文件切分红一个一个的Block，而后进行存储。
与 NameNode 交互，获取文件的位置信息。
与 DataNode 交互，读取或者写入数据。
Client 提供一些命令来管理 HDFS，好比启动或者关闭HDFS。
Client 能够经过一些命令来访问 HDFS。

二、NameNode：就是 master，它是一个主管、管理者。

NameNode 是 HDFS 的核心。
NameNode 也称为 Master。
NameNode 仅存储 HDFS 的元数据：文件系统中全部文件的目录树，并跟踪整个集群中的文件。
NameNode 不存储实际数据或数据集。数据自己实际存储在 DataNodes 中。
NameNode 知道 HDFS 中任何给定文件的块列表及其位置。使用此信息NameNode 知道如何从块中构建文件。
NameNode 并不持久化存储每一个文件中各个块所在的 DataNode 的位置信息，这些信息会在系统启动时从数据节点重建。
NameNode 对于 HDFS 相当重要，当 NameNode 关闭时，HDFS / Hadoop 集群没法访问。
NameNode 是 Hadoop 集群中的单点故障。
NameNode 所在机器一般会配置有大量内存（RAM）。

三、DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操做。

DataNode 负责将实际数据存储在 HDFS 中。
DataNode 也称为 Slave。
NameNode 和 DataNode 会保持不断通讯。
DataNode 启动时，它将本身发布到 NameNode 并汇报本身负责持有的块列表。
当某个 DataNode 关闭时，它不会影响数据或群集的可用性。NameNode 将安排由其余 DataNode 管理的块进行副本复制。
DataNode 所在机器一般配置有大量的硬盘空间。由于实际数据存储在DataNode 中。
DataNode 会按期（dfs.heartbeat.interval 配置项配置，默认是 3 秒）向NameNode 发送心跳，若是 NameNode 长时间没有接受到 DataNode 发送的心跳， NameNode 就会认为该 DataNode 失效。
block 汇报时间间隔取参数 dfs.blockreport.intervalMsec，参数未配置的话默认为 6 小时。

四、Secondary NameNode：并不是 NameNode 的热备。当NameNode 挂掉的时候，它并不能立刻替换 NameNode 并提供服务。

辅助 NameNode，分担其工做量。
按期合并 fsimage和fsedits，并推送给NameNode。
在紧急状况下，可辅助恢复 NameNode。

3 HDFS 的工做机制

　　首先：HDFS是一个文件系统，用于存储和管理文件，经过统一的命名空间（相似于本地文件系统的目录树）。是分布式的，服务器集群中各个节点都有本身的角色和职责。

　　其次：

　　1.HDFS中的文件在物理上是分块存储（block），块的大小能够经过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，以前的版本中是64M。

　　2.HDFS文件系统会给客户端提供一个统一的抽象目录树，客户端经过路径来访问文件，形如：hdfs://namenode:port/dir-a/dir-b/dir-c/file.data

　　3.目录结构及文件分块位置信息(元数据)的管理由namenode节点承担，namenode是HDFS集群主节点，负责维护整个hdfs文件系统的目录树，以及每个路径（文件）所对应的数据块信息（blockid及所在的datanode服务器）

　　4.文件的各个block的存储管理由datanode节点承担，datanode是HDFS集群从节点，每个block均可以在多个datanode上存储多个副本（副本数量也能够经过参数设置dfs.replication，默认是3）

　　5.Datanode会按期向Namenode汇报自身所保存的文件block信息，而namenode则会负责保持文件的副本数量，HDFS的内部工做机制对客户端保持透明，客户端请求访问HDFS都是经过向namenode申请来进行。

　　6.HDFS是设计成适应一次写入，屡次读出的场景，且不支持文件的修改。须要频繁的RPC交互，写入性能很差。

　　NameNode 负责管理整个文件系统元数据；DataNode 负责管理具体文件数据块存储；Secondary NameNode 协助 NameNode 进行元数据的备份。

　　HDFS 的内部工做机制对客户端保持透明，客户端请求访问 HDFS 都是经过向NameNode 申请来进行。

3.1 HDFS 写数据流程

详细步骤解析：

　　一、 client 发起文件上传请求，经过 RPC 与 NameNode 创建通信，NameNode检查目标文件是否已存在，父目录是否存在，返回是否能够上传；
　　二、 client 请求第一个 block 该传输到哪些 DataNode 服务器上；
　　三、 NameNode 根据配置文件中指定的备份数量及副本放置策略进行文件分配，返回可用的 DataNode 的地址，如：A，B，C；注：默认存储策略由 BlockPlacementPolicyDefault 类支持。也就是平常生活中提到最经典的 3副本策略。

1st replica 若是写请求方所在机器是其中一个 datanode,则直接存放在本地,不然随机在集群中选择一个 datanode.
2nd replica 第二个副本存放于不一样第一个副本的所在的机架.
3rd replica 第三个副本存放于第二个副本所在的机架,可是属于不一样的节点

如图：

　　四、 client 请求 3 台 DataNode 中的一台 A 上传数据（本质上是一个 RPC 调用，创建 pipeline），A 收到请求会继续调用 B，而后 B 调用 C，将整个pipeline 创建完成，后逐级返回 client；
　　五、 client 开始往 A 上传第一个 block（先从磁盘读取数据放到一个本地内存缓存），以 packet 为单位（默认 64K），A 收到一个 packet 就会传给 B，B 传给 C；A 每传一个 packet 会放入一个应答队列等待应答。
　　六、数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在pipeline 反方向上，逐个发送 ack（命令正确应答），最终由 pipeline中第一个 DataNode 节点 A 将 pipeline ack 发送给 client;
　　七、当一个 block 传输完成以后，client 再次请求 NameNode 上传第二个block 到服务器。

--------

3.2 HDFS 读数据流程

详细步骤解析：

　　一、 Client 向 NameNode 发起 RPC 请求，来肯定请求文件 block 所在的位置；　　二、 NameNode会视状况返回文件的部分或者所有block列表，对于每一个block，NameNode 都会返回含有该 block 副本的 DataNode 地址；　　三、这些返回的 DN 地址，会按照集群拓扑结构得出 DataNode 与客户端的距离，而后进行排序，排序两个规则：网络拓扑结构中距离 Client 近的排靠前；心跳机制中超时汇报的 DN 状态为 STALE，这样的排靠后；　　四、 Client 选取排序靠前的 DataNode 来读取 block，若是客户端自己就是DataNode,那么将从本地直接获取数据；　　五、底层上本质是创建 Socket Stream（FSDataInputStream），重复的调用父类 DataInputStream 的 read 方法，直到这个块上的数据读取完毕；　　六、当读完列表的 block 后，若文件读取尚未结束，客户端会继续向NameNode 获取下一批的 block 列表；　　七、读取完一个 block 都会进行 checksum 验证，若是读取 DataNode 时出现错误，客户端会通知 NameNode，而后再从下一个拥有该 block 副本的DataNode 继续读。　　八、 read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并非返回请求块的数据；　　九、最终读取来全部的 block 会合并成一个完整的最终文件。

Hadoop之HDFS（二）HDFS基本原理

HDFS 基本 原理

1，为何选择 HDFS 存储数据

2，HDFS 如何存储数据

3 HDFS 的工做机制

3.1 HDFS 写数据流程

3.2 HDFS 读数据流程

HDFS 基本原理