HDFS是干啥的

一、HDFS是啥?node

HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。分布式

二、HDFS特色是个啥?oop

一、大数据文件,能够存储大数据文件,小的话用不着,单机就能够了,杀鸡焉用牛刀。理论上若是管理节点的内存足够的话,无上限,可是毕竟硬件条件有限。若是一个block 128M,每一个block须要4kb的管理信息  namenode内存有8G 那么8G/4kb*128就是她这个集群的上限。大数据

二、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不一样计算器上,块的大小64M,128M, 256M均可以(看状况),它的意义在于读取文件时能够同时从多个主机取不一样区块的文件,多主机读取比单主机读取效率要高得多得都。内存

三、流式数据访问,一次写入屡次读写,这种模式跟传统文件不一样,它不支持动态改变文件内容,而是要求让文件一次写入就不作变化,要变化也只能在文件末添加内容。部署

四、廉价硬件,HDFS能够应用在普通PC机上,这种机制可以让给一些公司用几十台廉价的计算机就能够撑起一个大数据集群。效率

五、硬件故障,HDFS认为全部计算机均可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,若是其中一台主机失效,能够迅速找另外一块副本取文件。因此通常block备份三份,namenode 备份一份。集群

三、总结硬件

    HDFS就是一个将大数据量的文件分割成成大小相等的block中,这个block通常为 62M,128M等,并存储到集群中,能够一次存储,屡次读取,不易修改,不适合作交互,时效性低程序

相关文章
相关标签/搜索