Hadoop之HDFS基本概念

时间 2019-12-04

原文原文链接

1. 概念

HDFS，它是一个文件系统，用于存储文件，经过目录树来定位文件；其次，它是分布式的，由不少服务器联合起来实现其功能，集群中的服务器有各自的角色。
HDFS 的设计适合一次写入，屡次读出的场景，且不支持文件的修改。适合用来作数据分析，并不适合用来作网盘应用。node

2. 组成

(1) HDFS 集群包括，NameNode 和 DataNode 以及 Secondary Namenode。
(2) NameNode 负责管理整个文件系统的元数据，以及每个路径（文件）所对应的数据块信息。
(3) DataNode 负责管理用户的文件数据块，每个数据块均可以在多个 DataNode 上存储多个副本。
(4) Secondary NameNode 用来监控 HDFS 状态的辅助后台程序，每隔一段时间获取 HDFS 元数据的快照。服务器

3. HDFS 文件块大小

HDFS 中的文件在物理上是分块存储 (block)，块的大小能够经过配置参数 (dfs.blocksize) 来规定，默认大小在 hadoop2.x 版本中是 128M，老版本中是 64M。
HDFS 的块比磁盘的块大，其目的是为了最小化寻址开销。若是块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。于是，传输一个由多个块组成的文件的时间取决于磁盘传输速率。
若是寻址时间约为 10ms，而传输速率为 100MB/s，为了使寻址时间仅占传输时间的 1%，咱们要将块大小设置约为 100MB。默认的块大小实际为 64MB，可是不少状况下 HDFS 使用 128MB 的块设置。
块的大小：10ms*100*100M/s = 100M分布式

Hadoop之HDFS基本概念

1. 概念

2. 组成

3. HDFS 文件块大小

本文为原创文章，若是对你有一点点的帮助，别忘了点赞哦！比心！如需转载，请注明出处，谢谢！