大数据小白系列——HDFS(1)

时间 2019-11-06

标签数据系列 hdfs 栏目 Hadoop 繁體版

原文原文链接

【注1：结尾有大福利！】程序员

【注2：想写一个大数据小白系列，介绍大数据生态系统中的主要成员，理解其原理，明白其用途，万一有用呢，对不对。】架构

大数据是什么？抛开那些高大上但笼统的说法，其实大数听说的是两件事：1、怎么存储大数据，2、怎么计算大数据。分布式

咱们先从存储开始说，若是清晨起床，你的女仆给你呈上一块牛排，牛排太大，一口吃不了，怎么办？拿刀切小。oop

一样的，若是一份数据太大，一台机器存不了，怎么办？切小了，存到几台机器上。大数据

想要保存海量数据，无限地提升单台机器的存储能力显然是不现实，就比如咱们不能把一栋楼盖得无限高同样（一般这也不是经济的作法），增长机器数量是相对可持续的方案。spa

使用多台机器，须要有配套的分布式存储系统把这些机器组织成一个总体，因为Hadoop几乎是目前大数据领域的事实标准，那么这里介绍的分布式存储系统就是HDFS（Hadoop Distributed Filesystem）。3d

先来介绍几个重要概念。blog

分片（shard）

就比如把牛排切成小块，对大的文件进行切分，显然是进行分布式存储的前提，例如，HDFS中默认将数据切分红128MB的块（block）。数据分析

副本（replica）

三台机器中，若是有一台出现故障，如何保证数据不丢失，那么就是使用冗余的方式，为每个数据块都产生多个副本。io

下面图示中，任何单独一个节点掉线，都不会形成数据丢失，仍然能够凑齐A、B、C三个数据块。

固然，若是两个节点同时掉线就不行了。

不过，若是每一个数据块都有两个副本，那么能够承受同时损失两个节点。代价是，你的存储成本上升了。

Master/Slave架构

只有工人而没有包工头的工地确定不能正常运转，因此，除了上面3台负责存储的机器，还须要至少一台机器来领导它们，给它们分配工做，不然谁也没办法中的A、B、C具体应该存在哪一个机器上。

HDFS中采用Master/Slave架构，其中的NameNode就是Master，负责管理工做，而DataNode就是Slave，负责存储具体的数据，NameNode上管理着元数据，简单的讲就是记录哪一个数据块存储在哪台机器上。同时，DataNode也会定时向NameNode汇报本身的工做状态，以便后者监控节点状态、是否故障。

说完上面几个我以为须要了解的基础概念，咱们再把HDFS的读、写流程描述一下。

读取数据

读取数据的过程。在这个过程当中，NameNode负责提供数据的存储位置，真正的数据读取操做发生在用户和DataNode之间。因为数据有副本，一份数据在多个节点上存在，具体NameNode返回哪一个节点，遵循必定的原则（好比，就近原则）。

写入数据

写入数据的过程。和读取流程相似，NameNode负责提供数据的存储位置，真正的写入操做发生在用户和DataNode之间，而副本的制造，是在DataNode之间发生的，例如用户先把数据写入节点1，节点1再把数据复制到节点2等。

这篇文章就先到这里，下一篇准备接受HDFS中的单点问题、HA、Federation等概念。

最后，福利来了，关注公众号“程序员杂书馆”，将免费送出大数据经典书籍《Spark快速大数据分析》，没错，就是下面这本，纸质书哦，不是什么乱七八糟的其余书哦！还犹豫什么，抓紧扫码关注吧。“程序员杂书馆”之后将每周为你们带来经典书籍资料、原创干货分享，谢谢你们。

须要书的同窗请直接在公众号留言哈，若是不想要纸质书的也能够说明，我会选择一些PDF数据赠送，谢谢你们。