「大数据干货」基于Hadoop的大数据平台实施——总体架构设计

时间 2019-11-13

原文原文链接

大数据的热度在持续的升温，继云计算以后大数据成为又一大众所追捧的新星。咱们暂不去讨论大数据究竟是否适用于您的公司或组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一晚上之间咱们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据，说真的，到目前为止就和云计算同样，让我总以为像是在看电影《云图》——云里雾里的感受。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面，可是您至少要保持清醒的头脑，认真仔细的慎问一下本身，咱们公司真的须要大数据吗?html

作为一家第三方支付公司，数据的确是公司最最重要的核心资产。因为公司成立不久，随着业务的迅速发展，交易数据呈几何级增长，随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总成天嚷嚷的要报表、要分析、要提高竞争力。而研发部门能作的惟一事情就是执行一条一条复杂到本身都不可思议的SQL语句，紧接着系统开始罢工，内存溢出，宕机........简直就是噩梦。OMG!please release me!!!python

其实数据部门的压力能够说是常人不可思议的，为了把全部离散的数据汇总成有价值的报告，可能会须要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说，工欲善其事，必先利其器。咱们也该鸟枪换炮了......。算法

网上有一大堆文章描述着大数据的种种好处，也有一大群人不厌其烦的说着本身对大数据的种种体验，不过我想问一句，到底有多少人多少组织真的在作大数据?实际的效果又如何?真的给公司带来价值了?是否能够将价值量化?关于这些问题，好像没看到有多少评论会涉及，多是大数据太新了(其实底层的概念并不是新事物，老酒装新瓶罢了)，以致于人们还沉浸在各类美妙的YY中。数据库

作为一名严谨的技术人员，在通过短暂盲目的崇拜以后，应该快速的进入落地应用的研究中，这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话，当作发泄也好，博眼球也好，总之，我想表达的其实很简单：不要被新事物所迷惑，也不要盲目的崇拜任何同样新事物，更不要人云亦云，这是咱们作研究的人绝对要不得。编程

说了不少也是时候进入正题了。公司高层决定，正式在集团范围内实施大数据平台(还特意邀请了一些社区的高手，很期待.......)，作为第三方支付公司实施大数据平台也无可厚非，所以也积极的参与到这个项目中来。正好以前关于OSGi的企业级框架的研究也告一段落，

因此想利用CSDN这个平台将此次大数据平台实施过程记录下来。我想必定能为其它有相似想法的我的或公司提供很好的参考资料!须要大数据的能够加我扣扣群大数据零基础到项目实战，专一大数据分析方法,大数据编程，大数据仓库，大数据案例，人工智能,数据挖掘都是纯干货分享，进群获取永久免费权限410391744安全

第一记，大数据平台的总体架构设计服务器

1. 软件架构设计架构

大数据平台架构设计沿袭了分层设计的思想，将平台所需提供的服务按照功能划分红不一样的模块层次，每一模块层次只与上层或下层的模块层次进行交互(经过层次边界的接口)，避免跨层的交互，这种设计的好处是：各功能模块的内部是高内聚的，而模块与模块之间是松耦合的。这种架构有利于实现平台的高可靠性，高扩展性以及易维护性。好比，当咱们须要扩容Hadoop集群时，只须要在基础设施层添加一台新的Hadoop节点服务器便可，而对其余模块层无需作任何的变更，且对用户也是彻底透明的。负载均衡

整个大数据平台按其职能划分为五个模块层次，从下到上依次为：框架

运行环境层：

运行环境层为基础设施层提供运行时环境，它由2部分构成，即操做系统和运行时环境。

(1)操做系统咱们推荐安装REHL5.0以上版本(64位)。此外为了提升磁盘的IO吞吐量，避免安装RAID驱动，而是将分布式文件系统的数据目录分布在不一样的磁盘分区上，以此提升磁盘的IO性能。

(2)运行时环境的具体要求以下表：

名称版本说明

JDK1.6或以上版本Hadoop须要Java运行时环境，必须安装JDK。

gcc/g++3.x或以上版本当使用Hadoop Pipes运行MapReduce任务时，须要gcc编译器，可选。

python2.x或以上版本当使用Hadoop Streaming运行MapReduce任务时，须要python运行时，可选。

基础设施层：

基础设施层由2部分组成：Zookeeper集群和Hadoop集群。它为基础平台层提供基础设施服务，好比命名服务、分布式文件系统、MapReduce等。

(1)ZooKeeper集群用于命名映射，作为Hadoop集群的命名服务器，基础平台层的任务调度控制台能够经过命名服务器访问Hadoop集群中的NameNode，同时具有failover的功能。

(2)Hadoop集群是大数据平台的核心，是基础平台层的基础设施。它提供了HDFS、MapReduce、JobTracker和TaskTracker等服务。目前咱们采用双主节点模式，以此避免Hadoop集群的单点故障问题。

基础平台层：

基础平台层由3个部分组成：任务调度控制台、HBase和Hive。它为用户网关层提供基础服务调用接口。

(1)任务调度控制台是MapReduce任务的调度中心，分配各类任务执行的顺序和优先级。用户经过调度控制台提交做业任务，并经过用户网关层的Hadoop客户端返回其任务执行的结果。其具体执行步骤以下：

任务调度控制台接收到用户提交的做业后，匹配其调度算法;

请求ZooKeeper返回可用的Hadoop集群的JobTracker节点地址;

提交MapReduce做业任务;

轮询做业任务是否完成;

若是做业完成发送消息并调用回调函数;

继续执行下一个做业任务。

做为一个完善的Hadoop集群实现，任务调度控制台尽可能本身开发实现，这样灵活性和控制力会更加的强。

(2)HBase是基于Hadoop的列数据库，为用户提供基于表的数据访问服务。

(3)Hive是在Hadoop上的一个查询服务，用户经过用户网关层的Hive客户端提交类SQL的查询请求，并经过客户端的UI查看返回的查询结果，该接口可提供数据部门准即时的数据查询统计服务。

用户网关层：

用户网关层用于为终端客户提供个性化的调用接口以及用户的身份认证，是用户惟一可见的大数据平台操做入口。终端用户只有经过用户网关层提供的接口才能够与大数据平台进行交互。目前网关层提供了3个个性化调用接口：

(1)Hadoop客户端是用户提交MapReduce做业的入口，并可从其UI界面查看返回的处理结果。

(2)Hive客户端是用户提交HQL查询服务的入口，并可从其UI界面查看查询结果。

(3)Sqoop是关系型数据库与HBase或Hive交互数据的接口。能够将关系型数据库中的数据按照要求导入到HBase或Hive中，以提供用户可经过HQL进行查询。同时HBase或Hive或HDFS也能够将数据导回到关系型数据库中，以便其余的分析系统进行进一步的数据分析。

用户网关层能够根据实际的需求无限的扩展，以知足不一样用户的需求。

客户应用层：

客户应用层是各类不一样的终端应用程序，能够包括：各类关系型数据库，报表，交易行为分析，对帐单，清结算等。

目前我能想到的能够落地到大数据平台的应用有：

1.行为分析：将交易数据从关系型数据库导入到Hadoop集群中，而后根据数据挖掘算法编写MapReduce做业任务并提交到JobTracker中进行分布式计算，而后将其计算结果放入Hive中。终端用户经过Hive客户端提交HQL查询统计分析的结果。

2.对帐单：将交易数据从关系型数据库导入到Hadoop集群，而后根据业务规则编写MapReduce做业任务并提交到JobTracker中进行分布式计算，终端用户经过Hadoop客户端提取对帐单结果文件(Hadoop自己也是一个分布式文件系统，具有一般的文件存取能力)。

3.清结算：将银联文件导入HDFS中，而后将以前从关系型数据库中导入的POSP交易数据进行MapReduce计算(即对帐操做)，而后将计算结果链接到另一个MapReduce做业中进行费率及分润的计算(即结算操做)，最后将计算结果导回到关系型数据库中由用户触发商户划款(即划款操做)。

部署架构设计

关键点说明：

1.目前整个Hadoop集群均放置在银联机房中。

2.Hadoop集群中有2个Master节点和5个Slave节点，2个Master节点互为备份经过ZooKeeper可实现failover功能。每一个Master节点共享全部的Slave节点，保证分布式文件系统的备份存在于全部的DataNode节点之中。Hadoop集群中的全部主机必须使用同一网段并放置在同一机架上，以此保证集群的IO性能。

3.ZooKeeper集群至少配置2台主机，以免命名服务的单节点故障。经过ZooKeeper咱们能够再也不须要F5作负载均衡，直接由任务调度控制台经过ZK实现Hadoop名称节点的负载均衡访问。

4.全部服务器之间必须配置为无密钥SSH访问。

5.外部或内部用户均须要经过网关才能访问Hadoop集群，网关在通过一些身份认证以后才能提供服务，以此保证Hadoop集群的访问安全。

你们喜欢多多关注，会不按期分享干货。