《大数据技术原理与应用》暑假学习计划_04 - 分布式文件系统HDFS

时间 2019-11-13

标签大数据技术原理与应用暑假学习计划分布式文件系统 hdfs 栏目系统架构繁體版

原文原文链接

块？分布式文件系统HDFS最核心的内容。分布式文件系统HDFS上的文件也被划分为块大小的多个分块做为独立的存储单元。服务器

与一般的磁盘文件系的联系是：都是为了分摊磁盘读写开销也就是在大量数据间分摊磁盘寻址的开销。分布式

与一般的磁盘文件系统不一样的是：HDFS中小于一个块大小的文件不会占据整个块的空间（当一个1MB的文件存储在一个128MB的块中时，文件只使用1MB的磁盘空间，而不是128MB）性能

为何要设计块？①：支持向大规模数据存储 ②：下降分布式节点开销学习

块的优势：大规模文件存储，简化系统设计，适合数据备份。大数据

块的缺点：Map Reduce分布式处理不太好。设计

名称节点Name Node→整个HDFS集群的管家→数据目录→元数据对象

名称节点blog

保存系统文件树：文件复制等级，块大小以及组成文件的块，修改和访问的时间，访问权限。it

记录对数据进行的建立，删除，重命名等操做。集群

第二名称节点：

对EditLog处理，名称节点的冷备份。

数据节点Data Node→存储实际数据

以块为单位通常备份三份，能够加快数据传输速度（并行操做），并且很容易检查数据错误，同时能够保证数据的可靠性。

数据读取方式：就近读取

数据错误与恢复：

最后附课堂练习实例运行截图：