大数据技术原理与应用——分布式文件系统HDFS

时间 2019-12-11

原文原文链接

分布式文件系统概述

　　相对于传统的本地文件系统而言，分布式文件系统（Distribute File System）是一种经过网络实现文件在多台主机上进行分布式存储的文件系统。分布式文件系统的设计通常采用“客户/服务机”模式，客户端以特定的通讯协议经过网络与服务器创建链接，提出文件访问请求，客户端和服务器能够经过设置访问权限来限制请求方对底层数据存储块的访问。编程

　　目前，已经获得普遍应用的分布式文件系统主要包括GFS和HDFS等，后者是针对前者的开源实现。缓存

计算机集群结构

　　普通的文件系统只须要单个计算机节点就能够完成文件的存储和处理，单个计算机节点由处理器、内存、高速缓存和本地磁盘构成。安全

　　分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群。与以前使用多个处理器和专用高级硬件的并行化处理装置不一样的是，目前分布式文件系统所采用的计算机集群都是由普通硬件构成的，这就大大下降了硬件上的开销。服务器

　　集群中的计算机节点存放在机架（Rack）上，每一个机架能够存放8~64个节点，同一个机架上的不一样节点之间经过网络互连（常采用吉比特以太网），多个不一样机架之间采用另外一级网络或交换机互连。网络

分布式文件系统的结构　　

　　在咱们熟悉的Windows、Linux等操做系统中，文件系统通常会把磁盘空间划分为512字节一组，称为“磁盘块”，它是文件系统读写操做的最小单位，文件系统的块（Block）一般是磁盘块的整数倍，即每次读写的数据必须是磁盘块大小的整数倍。数据结构

　　与普通文件系统相似，分布式文件系统也采用了块的概念，文件被分红若干个块进行存储，块是数据读写的基本单元，只不过度布式文件系统的块要比操做系统中的块大不少。好比，HDFS默认的一个块大小是64MB。与普通文件系统不一样的是，在分布式文件系统中，若是一个文件小于一个数据块的大小，它并不占用整个数据块的存储空间。架构

　　分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类：一类叫“主节点”（Master Node），或者也被称为“名称节点”（NameNode）；另外一类叫“从节点”（Slave Node），或者也被称为“数据节点”（DataNode）。名称节点负责文件和目录的建立、删除和重命名等，同时管理着数据节点和文件块之间的映射关系，所以客户端只有访问名称节点才能找到请求的文件块所在的位置，进而到相应的位置读取所需文件块。数据节点负责数据的存储和读取，在存储时，由名称节点分配存储位置，而后由客户端把数据直接写入相应数据节点；在读取时，客户端从名称节点得到数据节点和文件块的映射关系，而后就能够到响应位置访问文件块。数据节点也要根据名称节点的命令建立、删除数据块和冗余复制。并发

　　计算机集群中的节点可能会发生故障，所以为了保证数据的完整性，分布式文件系统一般会采用多副本存储。文件块会被复制为多个副本，存储在不一样的节点上，并且存储同一文件块的不一样副本的各个节点会分布在不一样的机架上，这样，在单个节点出现故障时，就能够快速调用副本重启单个节点上的计算过程，而不用重启整个计算过程，整个机架出现故障时也不会丢失全部文件块。文件块的大小和副本个数一般能够由用户指定。负载均衡

　　分布式文件系统是针对大规模数据存储而设计的，主要用于处理大规模文件，如TB级文件。处理太小的文件不只没法充分发挥其优点，并且会严重影响到系统的扩展和功能。分布式

HDFS简介　

　　HDFS开源实现了GFS的基本思想。和MapReduce一块儿成为Hadoop的核心组成部分。HDFS支持流数据读取和超大规模文件，并可以运行在廉价的普通计算机组成的集群上，这主要得益于HDFS在设计之初就充分考虑了实际应用环境的特色，那就是，硬件出错在普通服务器集群中是一种常态，而不是异常。所以，HDFS在设计上采起了多种机制保证在硬件出错的环境中实现数据的完整性。整体而言，HDFS要实现如下目标：

　　（1）兼容廉价的硬件设备

　　（2）流数据读写

　　（3）大数据集

　　（4）简单的文件模型

　　（5）强大的跨平台兼容性

　　HDFS特殊的设计，在实现上述优良特性的同时，也是的自身具备一些应用局限性，主要包括如下几个方面：

　　（1）不适合低延迟数据访问

　　（2）没法高效存储大量小文件

　　（3）不支持多用户写入及任意修改文件

HDFS的相关概念

　　块

　　在传统的文件系统中，为了提升磁盘读写效率，通常以数据块为单位，而不是以字节为单位。好比，机械式硬盘（磁盘的一种）包含了磁头和转动部件，在读取数据时有一个寻道的过程，经过转动盘片和移动磁头的位置，来找到数据在机械式硬盘中额存储位置，而后才能进行读写。在I/O开销中，机械式硬盘的寻址时间是最耗时的部分，一旦找到第一条记录，剩下的顺序读取效率是很是高的。所以，以块为单位写数据，能够把磁盘寻道时间分摊到大量数据中。

　　HDFS也一样采用了块的概念，默认一个块大小是64MB。在HDFS中的文件会被拆分红多个块，每一个块做为独立的单元进行存储。咱们所熟悉的普通文件系统的一个块通常只有几千字节，能够看出，HDFS在块的大小的设计上明显要大于普通文件系统。HDFS这么作的缘由，是为了最小化寻址开销。HDFS寻址开销不只包括磁盘寻道开销，还包括数据块的定位开销。当客户端须要访问一个文件时，首先从名称节点得到组成这个文件的数据块的位置列表，而后根据位置列表获取实际存储各个数据块的数据节点的位置，最后数据节点根据数据块信息在本地Linux文件系统中找到对应的文件，并把数据返回给客户端。设计一个比较大的块，能够把上述寻址开销分摊到较多的数据中，下降了单位寻址的开销。所以，HDFS在文件块大小的设置上要远远大于普通文件系统，以期在处理大规模文件时可以得到更好地性能。固然，块的大小也不宜设置过大，由于，一般MapReduce中的Map任务一次只处理一个块中的数据，若是启动的任务太少，就会下降做业并行处理速度。

　　HDFS采用抽象的块的概念能够带来如下几个明显的好处。

　　（1）支持大规模文件存储。文件以块为单位进行存储，一个大规模文件能够被拆分红若干个文件块，不一样的文件块能够被分发到不一样的节点上，所以一个文件的大小不会受到单个节点的存储容量的限制，能够远远大于网络中任意节点的存储容量。

　　（2）简化系统设计。首先，大大简化了存储管理，由于文件块大小是固定的，这样就能够很容易计算出一个节点能够存出多少文件块；其次，方便了元数据的管理，元数据不须要和文件块一块儿存储，能够由其余系统负责管理元数据。

　　（3）适合数据备份。每一个文件块均可以冗余存储到多个节点上，大大提升了系统的容错性和可用性。

　　名称节点和数据节点

　　在HDFS中，名称节点（NameNode）负责管理分布式文件系统的命名空间（NameSpace），保存了两个核心的数据结构，即FsImage和EditLog，FsImage用于维护文件系统树以及文件树中全部文件和文件夹的元数据，操做日志文件EditLog中记录了全部针对文件的建立、删除、重命名等操做。名称节点记录了每一个文件中各个块所在的节点的位置信息，可是并不持久化存储这些信息，而是在系统每次启动时扫描全部数据节点重构获得这些信息。

　　名称节点在启动时，会将FsImage的内容加载到内存当中，而后执行EditLog文件中的各项操做，使得内存中的元数据保持最新。这个操做完成之后，就会建立一个新的FsImage文件和一个空的EditLog文件。名称节点启动成功并进入正常运行状态之后，HDFS中的更新操做都被写到EditLog，而不是直接写入FsImage，这是由于对于分布式文件系统而言，FsImage文件一般都很庞大，若是全部的更新操做都直接往FsImage文件中添加，那么系统就会变得很是缓慢。相对而言，EditLog一般都要远远小于FsImage，更新操做写入到EditLog是很是高效的。名称节点在启动的过程当中处于“安全模式”，只能对外提供读操做，没法提供写操做。在启动结束后，系统就会退出安全模式，进入正常运行状态，对外提供写操做。

　　数据节点（DataNode）是分布式文件系统HDFS的工做节点，负责数据的存储和读取，会根据客户端或者名称节点的调度来进行数据的存储和检索，而且向名称节点按期发送本身所存储的块的列表。每一个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。

　　第二名称节点

　　在名称节点运行期间，HDFS会不断发生更新操做，这些更新操做都是直接被写入到EditLog文件，所以EditLog文件也会逐渐变大。在名称节点运行期间，不断变大的EditLog文件一般对于系统性能不会产生显著影响，可是当名称节点重启时，须要将FsImage加载到内存中，而后逐条执行EditLog中的记录，使得FsImage保持最新。可想而知，若是EditLog很大，就会致使整个过程变得很是缓慢，是的名称节点在启动过程当中长期处于“安全模式”，没法正常对外提供写操做，影响了用户的使用。

　　为了有效解决EditLog文件逐渐变大带来的问题，HDFS在设计中采用了第二名称节点（SecondaryNameNode）。第二名称节点是HDFS架构的一个重要组成部分，具备两方面的功能：首先，能够完成EditLog与FsImage的合并操做，减少EditLog文件大小，缩短名称节点重启时间；其次，能够做为名称节点的“检查点”，保存名称节点中的元数据信息。具体以下：

　　（1）EditLog与FsImage的合并操做。每隔一段时间，第二名称节点会和名称节点通讯，请求其中止使用EditLog文件（这里假设这个时刻为t1），暂时将新到达的写操做添加到一个新的文件EditLog.new中。而后，第二名称节点把名称节点中的FsImage文件和EditLog文件拉回本地，再加载到内存中；对两者执行合并操做，即在内存中逐条执行EditLog中的操做，使得FsImage保持最新。合并结束后，第二名称节点会把合并后获得的最新的FsImage文件发送到名称节点。名称节点收到后，会用最新的FsImage文件去替换旧的FsImage文件，同时用EditLog.new去替换EditLog文件（这里假设这个时刻为t2），从而减少了EditLog文件的大小。

　　（2）做为名称节点的“检查点”。从上面的合并过程能够看出，第二名称节点会按期和名称节点通讯，从名称节点获取FsImage文件和EditLog文件，执行合并操做获得新的FsImage文件。从这个角度来说，第二名称节点至关于为名称节点设置了一个“检查点”，周期性地备份名称节点中的元数据信息，当名称节点发生故障时，就能够用第二名称节点中记录的元数据信息进行系统恢复。可是，在第二名称节点上合并操做获得的新的FsImage文件是合并操做发生时（即t1时刻）HDFS记录的元数据信息，并无包含t1时刻和t2时刻期间发生的更新操做，若是名称节点在t1时刻和t2时刻期间发生故障，系统就会丢失部分元数据信息，在HDFS的设计中，也并不支持把系统直接切换到第二名称节点，所以从这个角度来说，第二名称节点只是起到了名称节点的“检查点”做用，并不能起到“热备份”做用。即便有了第二名称节点的存在，当名称节点发生故障时，系统仍是可能会丢失部分元数据信息的。

HDFS体系结构

　　HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点和若干数据节点。名称节点做为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点通常是一个节点运行一个数据节点进程，负责处理文件系统客户端的读写请求，在名称节点的统一调度下进行数据块的建立、删除和复制等操做。每一个数据节点的数据其实是保存在本地Linux文件系统中的。每一个数据节点会周期性地向名称节点发送“心跳”信息，报告本身的状态，没有按时发送心跳信息的数据节点会被标记为“宕机”，不会再给它分配任何I/O请求。

　　用户在实际使用HDFS时，仍然能够像在普通文件系统中那样，使用文件名去存储和访问文件。实际上，在系统内部，一个文件会被切分红若干个数据块，这些数据块被分布存储到若干个数据节点上。当客户端须要访问一个文件时，首先把文件名发送给名称节点，名称节点根据文件名找到对应的数据块（一个文件名可能包括多个数据块），再根据每一个数据块信息找到实际存储各个数据块的数据节点的位置，并把数据节点位置发送给客户端，最后客户端直接访问这些数据节点获取数据。在整个访问过程当中，名称节点并不参与数据的传输。这种设计方式，使得一个文件的数据可以在不一样的数据节点上实现并发访问，大大提升了数据访问速度。

　　HDFS采用Java语言开发，所以任何支持JVM的机器均可以部署名称节点和数据节点。在实际部署时，一般在集群中选择一台性能较好地机器做为名称节点，其余机器做为数据节点。固然，一台机器能够运行任意多个数据节点，甚至名称节点和数据节点也能够放在一台机器上运行，不过，不多在正式部署中采用这种模式。HDFS集群中只有惟一一个名称节点，该节点负责全部元数据的管理，这种设计大大简化了分布式文件系统的结构，能够保证数据不会脱离名称节点的控制，同时，用户数据永远不会通过名称节点，这大大减轻了中心服务器的负担，方便了数据管理。

　　HDFS命名空间管理

　　HDFS的命名空间包含目录、文件和块。命名空间管理是指命名空间支持对HDFS中的目录、文件和块作相似文件系统的建立、修改、删除等基本操做。在当前的HDFS体系结构中，在整个HDFS集群中只有一个命名空间，而且只有惟一一个名称节点，该节点负责对这个命名空间进行管理。

　　HDFS使用的是传统的分级文件体系，所以用户能够像使用普通文件系统同样，建立、删除目录和文件，在目录间转移文件、重命名文件等。可是，HDFS尚未实现磁盘配额和文件访问权限等功能，也不支持文件的硬链接和软链接（快捷方式）。

　　通讯协议

　　HDFS是一个部署在集群上的分布式文件系统，所以不少数据须要经过网络进行传输。全部的HDFS通讯协议都是构建在TCP/IP协议基础上的。客户端经过一个可配置的端口向名称节点主动发起TCP链接，并使用客户端协议与名称节点进行交互。名称节点和数据节点之间则使用数据节点协议进行交互。客户端与数据节点的交互是经过RPC来实现的。在设计上，名称节点不会主动发起RPC，而是响应来自客户端和数据节点的RPC请求。

　　客户端

　　客户端是用户操做HDFS最经常使用的方式，HDFS在部署时都提供了客户端。不过须要说明的是，严格来讲，客户端并不算是HDFS的一部分。客户端能够支持打开、读取、写入等常见的操做，而且提供了相似Shell的命令行方式来访问HDFS中的数据。此外，HDFS也提供了JavaAPI，做为应用程序访问文件系统的客户端编程接口。

　　HDFS体系结构的局限性

　　HDFS只设置惟一一个名称节点，这样作虽然大大简化了系统设计，但也带来了一些明显的局限性，具体以下。

　　（1）命名空间的限制。名称节点是保存在内存中的，所以名称节点可以容纳对象（文件、块）的个数会受到内存空间大小的限制。

　　（2）性能的瓶颈。整个分布式文件系统的吞吐量受限于单个名称节点的吞吐量。

　　（3）隔离问题。因为集群中只有一个名称节点，只有一个命名空间，所以没法对不一样的应用程序进行隔离。

　　（4）集群的可用性。一旦这个惟一的名称节点发生故障，会致使整个集群变得不可用。

HDFS的存储原理

　　数据的冗余存储

　　做为一个分布式文件系统，为了保证系统的容错性和可用性，HDFS采用了多副本方式对数据进行冗余存储，一般一个数据块的多个副本会被分布到不一样的数据结点上。这种多副本的方式具备如下3个优势。

　　（1）加快数据传输速度。当多个客户端须要同时访问一个文件时，可让各个客户端分别从不一样的数据副本中读取数据，这就大大加快了数据传输速度。

　　（2）容易检查数据错误。HDFS的数据节点之间经过网络传输数据，采用多个副本能够很容易判断数据传输是否出错。

　　（3）保证数据的可靠性。即便某个数据节点出现故障失效，也不会形成数据丢失。

　　数据存取策略

　　数据的存取策略包括数据存放、数据读取和数据复制等方面，它在很大程度上会影响整个分布式文件系统的读写性能，是分布式文件系统的核心内容。

　　1.数据存放

　　为了提升数据的可靠性与系统的可用性，以及充分利用网络带宽，HDFS采用了以机架（Rack）为基础的数据存取策略。一个HDFS集群一般包含多个机架，不一样机架之间的数据通讯须要通过交换机或者路由器，同一个机架中不一样机器之间的通讯则不须要通过交换机和路由器，这意味着同一个机架中不一样机器之间的通讯要比不一样机架之间的通讯带宽大。

　　HDFS默认每一个数据节点都是在不一样的机架上，这种方法会存在一个缺点，那就是写入数据的时候不能很充分利用同一机架内部机器之间的带宽。可是，与这点缺点相比，这种方法也带来了更多显著的优势：首先，能够得到很高的数据可靠性，即便一个机架发生故障，位于其余机架上的数据副本仍然是可用的；其次，在读取数据的时候，能够在多个机架上并行读取数据，大大提升了数据读取速度；最后，能够更容易地实现系统内部负载均衡和错误处理。

　　HDFS默认的冗余因子是3，每个文件块都会被同时保存到3个地方，其中，有两份副本放在同一个机架的不一样机器上，第三个副本放在不一样的机架上，这样既能够保证机架发生异常时的数据恢复，也能够提升数据读写性能。通常而言，HDFS副本的放置策略以下：

　　（1）若是是在集群内部发起写操做请求，则把第一副本放置在发起写操做请求的数据节点上，实现就近写入数据。若是是来自集群外部的写操做，则从集群内部挑选一台磁盘不太满、CPU不太忙的数据节点，做为第一副本的存放地。

　　（2）第二副本会被放置在与第一副本不一样的机架的数据节点上。

　　（3）第三副本会被放置在与第一副本相同的机架的其余节点上。

　　（4）若是还有更多的副本，则继续从集群中随机选择数据节点进行存放。

　　2.数据读取

　　HDFS提供了一个API能够肯定一个数据节点所属的机架ID，客户端也能够调用API来获取本身所属的机架ID。当客户端读取数据时，从名称节点得到数据块不一样副本的存放位置列表，列表中包含了副本所在的数据节点，能够调用API来肯定客户端和这些数据节点所属的机架ID。当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时，就优先选择该副本读取数据，若是没有发现，就随机选择一个副本读取数据。

　　3.数据复制

　　HDFS的数据复制采用了流水线复制的策略，大大提升了数据复制过程的效率。当客户端要往HDFS中写入一个文件时，这个文件会首先被写入本地，并被切分红若干块，每一个块的大小是由HDFS的设定值来决定的。每一个块都向HDFS集群中的名称节点发起写请求，名称节点会根据系统中各个数据节点的使用状况，选择一个数据节点列表返回给客户端，而后客户端就把数据首先写入列表中的第一个数据节点，同时把列表传给第一个数据节点，当第一个数据节点接收到4KB数据的时候，写入本地，而且向列表中的第二个数据节点发起链接请求，把本身已经收到的4KB数据和列表传给第二个数据节点，当第二个数据节点接收到4KB数据的时候，写入本地，而且向列表中的第三个数据节点发起链接请求，依次类推，列表中的多个数据节点行成一条数据复制的流水线。最后，当文件写完的时候，数据复制也同时完成。

　　数据错误与恢复

　　HDFS具备较高的容错性，能够兼容廉价的硬件，它把硬件出错当作一种常态，而不是异常，并设计了相应的机制检测数据错误和进行自动恢复，主要包括如下3种情形。

　　1.名称节点出错

　　名称节点保存了全部的元数据信息，其中最核心的两大数据结构是FsImage和EditLog，若是这两个文件发生损坏，那么整个HDFS实例将失效。Hadoop采用两种机制来确保名称节点的安全：第一，把名称节点上的元数据信息同步存储到其余文件系统中（好比远程挂载的网络文件系统NFS）中；第二，运行一个第二名称节点，当名称节点宕机之后，能够把第二名称节点做为一种弥补措施，利用第二名称节点中的元数据信息进行系统恢复，可是从前面对第二名称节点的介绍中能够看出，这样作仍然会丢失部分数据。所以，通常会把上述两种方式结合使用，当名称节点发生宕机时，首先到远程挂载的网络文件系统中获取备份的元数据信息，放到第二名称节点上进行恢复，并把第二名称节点做为名称节点来使用。

　　2.数据节点出错

　　每一个数据节点都会按期向名称节点发送“心跳”信息，向名称节点报告本身的状态。当数据节点发生故障，或者网络发生断网时，名称节点就没法收到来自一些数据节点的“心跳”信息，这时这些数据节点就会被标记为“宕机”，节点上面的全部数据都会被标记为“不可读”，名称节点不会再给它们发送任何I/O请求。这时，有可能会出现一种情形，即因为一些数据节点的不可用会致使一些数据块的副本数量小于冗余因子。名称节点会按期检查这种状况，一旦发现某个数据块的副本数量小于冗余因子，就会启动数据冗余复制，为它生成新的副本。HDFS与其余分布式文件系统的最大区别就是能够调整冗余数据的位置。

　　3.数据出错

　　网络传输和磁盘错误等因素都会形成数据错误。客户端在读取到数据后，会采用md5和sha1对数据块进行校验，以肯定读取到正确的数据。在文件被建立时，客户端就会对每个文件块进行信息摘录，并把这些信息写入到同一个路径的隐藏文件里面。当客户端读取文件的时候，会先读取该信息文件，而后利用该信息文件对每一个读取的文件块进行校验。若是校验出错，客户端就会请求到另一个数据节点读取该文件块，而且向名称节点报告这个文件块有错误，名称节点会按期检查而且从新复制这个块。

HDFS的数据读写过程

　　在介绍HDFS的数据读写以前，须要简单介绍一下相关的类。FileSystem是一个通用文件系统的抽象基类，能够被分布式文件系统继承，全部可能使用Hadoop文件系统的代码都要使用这个类。Hadoop为FileSystem这个抽象类提供了多种具体的实现，DistributedFileSystem就是FileSystem在HDFS文件系统中的实现。FileSystem的open()方法返回的是一个输入流FSDataInputStream对象，在HDFS文件系统中具体的输入流就是DFSInputStream；FileSystem中的create()方法返回的是一个输出流FSDataOutputStream对象，在HDFS文件系统中具体的输出流就是DFSOutputStream。

　　读数据的过程

　　客户端连续调用oepn()、read()、close()读取数据时，HDFS内部的执行过程以下：

　　（1）客户端经过FileSystem.open()打开文件，相应地，在HDFS文件系统中DistributedFileSystem具体实现了FileSystem。所以，调用open()方法后，DistributeFileSystem会建立输入流FSDataFileSystem，对于HDFS而言，具体的输入流就是DFSInputStream。

　　（2）在DFSInputStream的构造函数中，输入流经过ClientProtocal.getBlockLocations()远程调用名称节点，得到文件开始部分数据块的保存位置，同时根据距离客户端的远近对数据节点进行排序；而后，DistributedFileSystem会利用DFSInputStream来实例化FSDataInputStream，返回给客户端，同时返回了数据块的数据节点地址。

　　（3）得到输入流FSDataInputStream后，客户端调用read()函数开始读取数据。输入流根据前面的排序结果，选择距离客户端最近的数据节点创建链接并读取数据。

　　（4）数据从该数据节点读到客户端；当该数据块读取完毕时，FSDataInputStream关闭和该数据节点的链接。

　　（5）输入流经过getBlockLocations()方法查找下一个数据块（若是客户端缓存中已经包含了该数据块的位置信息，就不须要调用该方法）。

　　（6）找到该数据块的最佳数据节点，读取数据。

　　（7）当客户端读取完毕数据的时候，调用FSDataInputStream的close()函数，关闭输入流。

　　须要注意的是，在读取数据的过程当中，若是客户端与数据节点通讯时出现错误，就会尝试链接包含此数据块的下一个数据节点。

　　写数据的过程

　　客户端向HDFS写数据是一个复杂的过程，这里介绍一下在不发生异常的状况下，客户端连续调用create()、write()、close()时，HDFS内部的执行过程。

　　（1）客户端经过FileSystem.create()建立文件，相应地，在HDFS文件系统中DistributedFileSystem具体实现了FileSystem。所以，在调用create()方法后，DistributeFileSystem会建立输出流FSDataOutputStream，对于HDFS而言，具体的输出流就是DFSOutputStream。

　　（2）而后，DistributedFileSystem经过RPC远程调用名称节点，在文件系统的命名空间中建立一个新的文件。名称节点会执行一些检查，好比文件是否已经存在、客户端是否有权限建立文件等。检查经过以后，名称节点会构造一个新文件，并添加文件信息。远程方法调用结束后，DistributedFileSystem会利用DFSOutputStream来实例化FSDataOutputStream，返回给客户端，客户端使用这个输出流写入数据。

　　（3）得到输出流FSDataOutputStream之后，客户端调用输出流的write()方法向HDFS中对应的文件写数据。

　　（4）客户端向输出流FSDataOutputStream中写入的数据会首先被分红一个个的分包，这些分包被放入DFSOutputStream对象的内部队列。输出流FSDataOutputStream会向名称节点申请保存文件和副本数据块的若干个数据节点，这些数据节点造成一个数据流管道。队列中的分包最后被打包成数据包，发往数据流管道中的第一个数据节点，第一个数据节点将数据包发送给第二个数据节点，第二个数据节点将数据包发送给第三个数据节点，这样，数据包就会流经管道上的各个数据节点（流水线复制策略）。

　　（5）由于各个数据节点位于不一样的机器上，数据须要经过网络发送，所以，为了保证数据节点的数据都是准确的，接收到数据的数据节点要向发送者发送“确认包”。确认包沿着数据流管道逆流而上，从数据管道依次通过各个数据节点并最终发往客户端，当客户端收到应答时，它将对应的包从内部队列中移除。不断执行（3）~（5）步，直到数据所有写完。

　　（6）客户端调用close()方法关闭数据流，此时开始，客户端不会再向输出流中写入数据，因此，当DFSOutputStream对象内部队列中的包都收到应答之后，就可使用ClientProtocol.complete()方法通知名称节点关闭文件，完成一次正常的写文件过程。