《大数据技术原理与应用》暑假学习计划_04 - 分布式文件系统HDFS

《大数据技术原理与应用》暑假学习计划_04 - 分布式文件系统HDFS

块?分布式文件系统HDFS最核心的内容。分布式文件系统HDFS上的文件也被划分为块大小的多个分块做为独立的存储单元。服务器

与一般的磁盘文件系的联系是:都是为了分摊磁盘读写开销也就是在大量数据间分摊磁盘寻址的开销。分布式

与一般的磁盘文件系统不一样的是:HDFS中小于一个块大小的文件不会占据整个块的空间(当一个1MB的文件存储在一个128MB的块中时,文件只使用1MB的磁盘空间,而不是128MB)性能

为何要设计块?①:支持向大规模数据存储 ②:下降分布式节点开销学习

块的优势:大规模文件存储,简化系统设计,适合数据备份。大数据

块的缺点:Map Reduce分布式处理不太好。设计

分布式文件系统HDFS两大组件

名称节点Name Node→整个HDFS集群的管家→数据目录→元数据对象

  1. 文件是什么?
  2. 文件被分红多少块?
  3. 每一个块和文件之间是怎么映射的?
  4. 每一个块被存储在那个服务器上?

名称节点blog

  1. FsImage

保存系统文件树:文件复制等级,块大小以及组成文件的块,修改和访问的时间,访问权限。it

  1. EditLog

记录对数据进行的建立,删除,重命名等操做。集群

第二名称节点:

对EditLog处理,名称节点的冷备份。

数据节点Data Node→存储实际数据

分布式文件系统HDFS体系结构的局限性?

  1. 节点容纳对象个数受空间大小限制
  2. 性能瓶颈
  3. 不一样应用程序隔离问题
  4. 集群可用性

分布式文件系统HDFS数据冗余保存?

以块为单位通常备份三份,能够加快数据传输速度(并行操做),并且很容易检查数据错误,同时能够保证数据的可靠性。

数据读取方式:就近读取

数据错误与恢复:

  1. 名称节点错误→第二名称节点恢复
  2. 数据节点故障→宕机→备份恢复,数据块均衡分配
  3. 数据出错→效验码对比判断恢复

HDFS的数据读写过程?

最后附课堂练习实例运行截图:

相关文章
相关标签/搜索