HDFS

HDFS

简介:node

  • HDFS:是一个分布式的文件存储系统
  • namenode:管理者,一个HDFS体系只有一个nn节点,保存数据在dn上的位置等信息,肯定数据上传时存储的具体位置
  • datanode:员工:用来直接存储数据,一个体系中能够有一个或多个dn
  • secondarynamenode:是对nn进行备份的
  • client:客户端,用户直接进行操做的地方,负责将数据上传到dn,跟nn通讯,数据的下载。
    image
    注:多个节点组成一个集群,在他们上面进行数据的存储,造成的系统就是HDFS(这里的节点跟服务器和客户端同样都是应用)
    image

HDFS安装模式的分类

本地模式:

  • 特色:
    • 运行在单台机器上
    • 没有分布式的概念,使用的是本地文件系统
  • 用途:
    • 用于对MapReduce程序的逻辑进行调试,确保程序的正确
    • 因为在本地模式下测试和调试MapReduce程序较为方便,所以,这种模式适宜用在开发阶段。

伪分布式模式:

  • 特色:
    • 在一台机器上安装,使用的是分布式文件系统,非本地文件系统
    • HDFS涉及到的相关守护进程(namenode,datanode,secondarynamenode)都运行在一台机器上,都是独立的Java进程
  • 用途:
    • 比Standalone mode多了代码调试功能,容许检查内存使用状况,HDFS输入输出,以及其余的守护进程交互。
      (与本地模式的区别:一个没有分布式系统,一个是具备分布式系统的)

彻底分布式模式:

  • 特色:
    • 真实环境,多台机器,共同配合,来构建一个完整的分布式文件系统。
    • 真实环境,HDFS中的相关守护进程会分布在不一样的机器中,如:
      • namenode尽量单独部署在一台硬件性能相对来讲比较好的机器中。
      • 其余的每台机器都会部署一个datanode守护进程,通常的硬件环境便可(这里主要考虑成本)
      • secondarynamenode守护进程最好不要和namenode在同一台机器中,否则的话备份的做用就失去了意义,一台机器挂掉了就两个节点都刮掉了,因此最好不在同一台机器中。

彻底分布式系统的搭建

Hadoop配置文件

  • 针对于Hadoop的属性配置,有如下三处须要注意的地方:
    • 默认配置文件:
      • core-default.xml
      • hdfs-default.xml
      • mapred-default.xml
      • yarnn-default.xml
    • 用户自定义配置文件
      • core-site.xml
      • hdfs-site.xml
      • mqpred-site.xml
      • yarn-site.xml
    • 代码中设定的参数
      • image
  • 若是三个地方都进行了相关属性的配置,那么属性的值是有一个优先级的:
    • 代码中设定参数 > 用户自定义配置文件 > 默认配置文件

相关配置文件的修改

  • 想要搭建彻底分布式集群,须要对hadoop-3.2.2/etc/hadoop/目录下的用户自定义配置文件进行以下配置:
    • core-site.xml
      • image
相关文章
相关标签/搜索