HDFS优缺点

时间 2019-11-24

原文原文链接

HDFS架构简述node

1、HDFS简介安全

HDFS（Hadoop distributed File System）：Hadoop分布式文件系统。是基于流数据模式访问和处理超大文件的须要而开发的，能够运行于廉价的服务器上。它所具备的高容错，高可靠性，高可扩展性，高得到性，高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集的应用带来了不少便利。简单来讲就是把一个超大号文件按必定大小分割并放置在多台服务器上，这样多台服务器同时工做，效率超高，并且安全性也会提升。服务器

2、HDFS组成结构以及各部分做用架构

HDFS主要由四个部分组成，分别为Client，nameNode、DataNode、以及Secondary NameNode组成。
2.1Client（客户端）分布式

文件切分：文件上传HDFS的时候，client根据需求将文件切分红一个一个的小数据块（block），而后进行存储。
每一个小数据块（block）在其余服务器上都有副本，client会与namenode进行通讯，获取文件及其副本位置，为之后作打算。
与DataNode进行通讯，读取或写入数据。
client能够管理HDFS，好比启动或关闭。

2.2nameNode（管理者）
nameNode在HDFS是管理者的做用，相似于现实世界中的国王地位，客户端和secondary nameNode都是与他进行通讯，而后由他发号施令来操做DataNode。主要做用有：oop

管理HDFS的名称空间
管理数据块（block）映射信息
配置副本策略
处理客户端请求

2.3DataNode（执行者）
DataNode在文档中的角色是slave，翻译过来就是奴隶的意思（因此你们知道他的地位了吧），主要就是存储数据块和读写数据块用的：大数据

存储实际的数据块（block）
执行数据块的读写操做

2.4secondary nameNode
他是nameNode的死忠，帮助nameNode完成一些工做，而且在nameNode要挂的时候给他续命，主要做用以下：.net

按期合并nameNode中的fsimage（映像文件）和fsedits（日志）,并推送给nameNode，避免nameNode中的fsedits过大。
在紧急状况下，可辅助恢复nameNode。

3、副本放置策略翻译

第一个副本：放置在上传文件的DN；若是是集群外提交，则随机挑选一台磁盘不太满，CPU不太忙的节点。
第二个副本：放置在于第一个副本不一样的机架的节点上。日志

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上转载自 https://blog.csdn.net/a15732111571/article/details/89570865

优势：

数据冗余，硬件容错

适合存储大文件

处理流式数据

可构建在廉价机器上

缺点：

不能低延迟的数据访问

不适合存储小文件（缘由及解决方法：存储每份数据文件对应一个元数据，多份文件须要存储多份元数据，耗费进程，解决方法：Hadoop Archive 将小文件打包成xxx.har,对于hadoop只有一份元数据，每一个文件的名字由har自管理）