本地搭建hadoop集群的安装规划

Hadoop分布式集群环境搭建是每一个入门级新手都很是头疼的事情,由于你可能花费了好久的时间在搭建运行环境,最终殊不知道什么缘由没法建立成功。但对新手来讲,运行环境搭建不成功的几率还蛮高的。 在以前的分享文章中给hadoop新手入门推荐的大快搜索DKHadoop发行版,在运行环境安装方面的确要比其余的发行版hadoop要简单的多,毕竟DKHadoop是对底层从新集成封装的,对与研究hadoop尤为是入门级新手来讲是很是友好的一个发行版!关于DKHadoop的安装留在后面再给你们分享,本篇就跟你们聊一聊关于【hadoop分布式集群环境搭建规划】。 DKH大数据通用计算平台 一、分布式机器架构图: 分布式机器架构图 其中机器1主节点,机器2从节点,机器三、机器4等都是计算节点。当主节点宕机后从节点代替主节点工做,正常状态是从节点和计算节点同样工做。这种架构设计保证数据完整性。 首先咱们保证每台计算节点上分别有一个DataNode节点和NodeManager节点。由于都是计算节点,真正干活的。在数量上咱们要保证。那么NameNode和ResourceManager是两个很是重要的管理者,咱们客户端的请求,第一时间与NameNode和ResourceManager打交道。NameNode负责管理HDFS文件系统的元数据,客户端不论是读文件仍是写文件,都要首先找到NameNode获取文件的元数据,再进行文件的操做。ResourceManager也是如此,它负责管理集群中的资源和任务调度,你也能够把它视为“大数据操做系统”。客户端可否提交应用并运行,就看你的ResourceManager是否正常。 二、达到多大规模的数据,才值得用大数据的方式来处理? 第一,从数据量角度,可是并没有肯定的答案,通常定性角度来讲,你以为这个数据量单机处理不了,好比内存限制,时间太久等,就用集群,可是要下降时间,你的处理逻辑必须能分布式处理,定量就是通常数据或者将来的数据量会达到PB级别(可能GB)或以上就要用分布式,固然前提也是你的处理逻辑能够进行分布式。 第二,从算法角度,或者处理逻辑的时间复杂度来讲,好比虽然你的数据记录不是不少,可是你的算法或者处理逻辑的时间复杂度是n的平方,甚至更高,同时你的算法能够进行分布式设计,那么就考虑用分布式,好比你的记录虽然只有1w, 可是时间复杂度确是n的平方,那么你想一想单机要多久,要是你的算法能够进行分布式处理,那么就考虑用分布式。 三、制约大数据处理能力的几个问题 a、网络带宽 网络是联接计算机的纽带,这个纽带固然越宽越好,这样能够在计算机资源许可的状况下,在单位时间内传输更多的数据,让计算机处理更多的数据。如今企业网络中,广泛采用的可能是百兆网络,也有千兆,万兆虽然有,可是用得很少。 b、磁盘 全部数据,无论它从哪里来,最终都要存进不一样的硬盘里面,或者闪存盘。闪存盘的读写效率比硬盘高得多,可是缺点也明显:价格贵、容量小。如今的存储介质主要仍是硬盘,硬盘有顺序读写和随机读写两种模型。顺序读写是磁头沿着磁道,好象流水线同样,有规律的向前滚动进行。随机读写是磁头跳跃着,找到磁道上留空的地方,把数据写进去。很明显,顺序读写比随机读写效率高,因此系统架构师在设计大数据存储方案时,都是以顺序读写为主要选择。 c、计算机的数量 分布式的集群环境下,计算机的规模固然越大越好。这样在数据等量的状况下,计算机数量越多,分配给每台计算机的数据越少,处理效率天然就高了。可是计算机的数量也不是能够无限增长,集群对计算机规模的容纳有一个峰值,超过这个峰值,再提高就很困难,处理很差还会降低。缘由主要来自木桶短板效应、边界效应、规模放大效应。根据多年前的一个测试,当时以Pentium 3和Pentium 4芯片为基础平台,配合100M网络,在上面运行LAXCUS大数据系统。当达到千台计算机的规模时,瓶颈开始显露出来。若是如今用新的X86芯片,加上更高速的网络,应该是可以容纳更多的计算机。 d、代码质量 这不是关键问题,可是是企业必须关注的一个问题。这和程序员编写的计算机代码质量有关。实际上,每一个大数据产品都是半成品,它们只是提供了一个计算框架,要实际应用到企业生产中,里面还有大量业务编码须要程序员来实现。要使大数据应用达到高质量,技术负责人要作好前期设计,清楚和规范业务流程,程序员拿到方案后,用统一格式编写代码。这是双方互相配合的过程。或者说,要作好协同和协调的事情。程序员

相关文章
相关标签/搜索