HDFS,Hadoop分布式文件系统,它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序。分布式
HDFS的设计特色是:oop
1.大数据文件,很是适合上T级别的大文件或者一堆大数据文件的存储,若是文件只有几个G甚至更小就没啥意思了。大数据
2.文件分块存储,HDFS会将一个完整的大文件平均分块存储到不一样计算器上,它的意义在于读取文件时能够同时从多个主机取不一样区块的文件,多主机读取比单主机读取效率要高得多得都。spa
3.流式数据访问,一次写入屡次读写,这种模式跟传统文件不一样,它不支持动态改变文件内容,而是要求让文件一次写入就不作变化,要变化也只能在文件末添加内容。设计
4.廉价硬件,HDFS能够应用在普通PC机上,这种机制可以让给一些公司用几十台廉价的计算机就能够撑起一个大数据集群。部署
5.硬件故障,HDFS认为全部计算机均可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,若是其中一台主机失效,能够迅速找另外一块副本取文件。it
HDFS的关键元素:效率
Block:将一个文件进行分块,一般是64M。集群
NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由惟一一台主机专门保存,固然这台主机若是出错,NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----若是主NameNode失效,启动备用主机运行NameNode。硬件
DataNode:分布在廉价的计算机上,用于存储Block块文件。