HDFS架构简述node
1、HDFS简介安全
HDFS(Hadoop distributed File System):Hadoop分布式文件系统。是基于流数据模式访问和处理超大文件的须要而开发的,能够运行于廉价的服务器上。它所具备的高容错,高可靠性,高可扩展性,高得到性,高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集的应用带来了不少便利。简单来讲就是把一个超大号文件按必定大小分割并放置在多台服务器上,这样多台服务器同时工做,效率超高,并且安全性也会提升。服务器
2、HDFS组成结构以及各部分做用架构
HDFS主要由四个部分组成,分别为Client,nameNode、DataNode、以及Secondary NameNode组成。
2.1Client(客户端)分布式
2.2nameNode(管理者)
nameNode在HDFS是管理者的做用,相似于现实世界中的国王地位,客户端和secondary nameNode都是与他进行通讯,而后由他发号施令来操做DataNode。主要做用有:oop
2.3DataNode(执行者)
DataNode在文档中的角色是slave,翻译过来就是奴隶的意思(因此你们知道他的地位了吧),主要就是存储数据块和读写数据块用的:大数据
2.4secondary nameNode
他是nameNode的死忠,帮助nameNode完成一些工做,而且在nameNode要挂的时候给他续命,主要做用以下:.net
3、副本放置策略翻译
第一个副本:放置在上传文件的DN;若是是集群外提交,则随机挑选一台磁盘不太满,CPU不太忙的节点。
第二个副本:放置在于第一个副本不一样的 机架的节点上。日志
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
以上转载自 https://blog.csdn.net/a15732111571/article/details/89570865
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
优势:
数据冗余,硬件容错
适合存储大文件
处理流式数据
可构建在廉价机器上
缺点:
不能低延迟的数据访问
不适合存储小文件(缘由及解决方法:存储每份数据文件对应一个元数据,多份文件须要存储多份元数据,耗费进程,解决方法:Hadoop Archive 将小文件打包成xxx.har,对于hadoop只有一份元数据,每一个文件的名字由har自管理)