Hadoop入门学习笔记---part3

    2015年元旦,好好学习,每天向上。良好的开端是成功的一半,任何学习都不能中断,只有坚持才会出结果。继续学习Hadoop。冰冻三尺,非一日之寒!html

    通过Hadoop的伪分布集群环境的搭建,基本对Hadoop有了一个基础的了解。可是仍是有一些理论性的东西须要重复理解,这样才能完全的记住它们。我的认为重复是记忆之母。精简一下:java

    NameNode:管理集群,而且记录DataNode文件信息;linux

    SecondaryNameNode:能够作冷备份,对必定范围内的数据做快照性备份;shell

    DataNode:存储数据;并发

    JobTracker:管理任务,并将任务分配给taskTracker;app

    TaskTracker:任务的执行方。分布式

     HDFS如今都知道是Hadoop分布式文件系统,可是关于它的其它方面好比说它的体系结构就不知道了。所以,还得在此基础上理解Hadoop分布式文件系统的体系结构以及相关基本概念。《Hadoop入门学习笔记---part3》的重点内容就是分布式文件系统和HDFSHDFS的shell操做NameNode体系结构DataNode的体系结构oop

  1. 分布式文件系统和HDFS:

    DFS(分布式文件系统)是一种容许文件经过网路在多台主机上分享的文件系统。可让多台机器上的多用户分享文件和存储空间。学习

            HDFS仅仅是DFS中的一种,适用于一次写入屡次查询的状况,不支持并发写的状况,同时也不适合于小文件。网站

        下面就能够在已经搭建好的hadoop伪分布环境下进行操做了。首先查看hadoop的进程是否已经启动。若是没有启动,须要启动后再进行下面的操做。

      #jps
      #start-all.sh   (若是没有启动)

 

   2. HDFS的shell操做:

    实际上HDFS的shell操做和Linux上的操做基本上是相似的。只是列举一些非常经常使用的命令,给一个抛砖引玉的做用。可以知道是怎么回事,怎么用就行。

#hadoop fs –ls / 查看根目录下的内容
#hadoop fs –lsr / 递归查看根目录下的内容
#hadoop fs –mkdir /hello  在HDFS的根目录下新建一个hello的文件夹
#hadoop fs –put /root/test /hello   将linux中root目录下的test文件上传到HDFS的hello目录下,当只有源路径而没有目标路径时,默认表示文件名称,不是文件夹,为上传后的名称
#hadoop fs –get /hello/test .    将HDFS上的文件下载到本地。注意在命令的最后面是一个点,而这个点就是表示本地路径,即为linux的路径,能够将点改成任何路径
#hadoop fs –text /hello/test   直接在HDFS上查看hello目录下的test文件
#hadoop fs –rm /hello/test  删除hello目录下的test文件,只针对文件
#hadoop fs –rmr /hello  递归地删除HDFS上的hello目录,包含文件和文件夹 **#hadoop fs –help +命令  查看帮助文档 **#hadoop fs –ls /  其实是命令#hadoop fs –ls hdfs://hadoop:9000/ 是同样的效果,就是简写。注意里面的hadoop是我机器的主机名,应根据你本身的实际来选择

 

    由于这样的命令太多,我就不一一列举了。只要会使用linux命令的,基本上很容易上手。类推就行!

  3. NameNode的体系结构:

    HDFS的两大核心就是NameNode和DataNode。是整个文件系统的管理节点,维护整个文件系统的文件目录树,文件/目录的元信息和每一个文件对应的数据块列表,接收用户的操做请求。本人仅归纳性的总结,详细的介绍还请参看官方文档。

    文件包括:

    (1)     fsimage:文件系统镜像,元数据镜像文件,存储某一时段NameNode内存元数据信息;

    (2)     edits: 操做日志文件,事务文件;

    (3)     fstime: 保存最近一次checkpoint的时间。

    以上这些文件是保存在Linux上。

  SecondaryNameNode:

     从NameNode上下载元数据信息(fsimage和edits),而后把两者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits。实际上就是冷备份。

        在linux中的路径以下以下,你能够看到以上介绍的文件。

                          

  4. DataNode的体系结构:

    提供真实文件数据的存储服务;还得明白一个关键术语:数据块(block),最基本的存储单位;对于文件内存而言,一个文件的长度大小问size。那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每个块称为一个block。

    HDFS默认的Block大小是64MB,以一个256MB的文件为例,256MB/64MB=4个Block。

    与普通文件系统不一样的是,HDFS中,若是文件小于一个数据块的大小,并不占用整个数据块存储空间。即:HDFS的DataNode在存储数据时,若是原始文件大小大于64MB,按照64MB大小划分,若是小于64MB,就按实际大小保存。

    Repication:多副本,默认为3个,存放在不一样的机器上。

    在linux中的实际存储为下图所示。同时能够看到存储数据的元信息。

    

  在《Hadoop入门学习笔记---part4》中将利用java操做HDFS,看看如何利用java实现的应用程序进行操做。

做者:itRed 邮箱:it_red@sina.com  博客:http://www.cnblogs.com/itred  我的网站:http://wangxingyu.jd-app.com
***本文版权归做者和博客园共有,欢迎转载,但请在文章显眼位置标明文章出处。未经本人书面赞成,将其做为他用,本人保留追究责任的全部权利。
相关文章
相关标签/搜索