1、cdh是什么
CDH is Cloudera’s 100% open source Hadoop distribution, built specifically to meet enterprise demands
即一个开源的分布式存储系统
2、cdh4包含了哪些软件和功能
首先hbase,hadoop,zookeeper这些是必不可少的
其次hive,oozie,Map/Reduce也能够集成在其中
HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”
hadoop是一个分布式系统基础架构,由Apache基金会开发。用户能够在不了解分布式底层细节的状况下,开发分布式程序。充分利用集群的威力高速运算和存储
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等
hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,能够将sql语句转换为MapReduce任务进行运行
Oozie是一种框架,它让咱们能够把多个Map/Reduce做业组合到一个逻辑工做单元中
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的状况下,将本身的程序运行在分布式系统上
3、cdh4的安装
cdh4安装通常来说通俗的方法就是登陆官方网站http://www.cloudera.com/blog/2012/02/introducing-cdh4/
下载所需rpm包,根据官方文档,一路yum安装,最后配置便可node
这里我要介绍的是经过cloudera-manager来安装cdh4的安装过程
cloudera-manager也是apache基金会的产品,目前有免费版与商业版两种,免费版只支持50个节点,商业版不限制
固然通常状况50个节点也就够用了,这里咱们用的就是cloudera-manager的免费版
官方下载地址:https://ccp.cloudera.com/display/SUPPORT/Downloads
1.安装环境
node1:192.168.1.124 centos6.2系统
node2:192.168.1.163 centos6.2系统
iptables关闭
selinux关闭
2.安装cloudera-manager
node1:
官方下载后会获得一个可执行文件cloudera-manager-installer.bin
这里须要咱们事先安装X Window System包组,缘由很简单,图形化安装界面
这里安装时会自动yum安装他所须要的包,大约有100多M,yum安装,自动下载的,因为是外国的源,加上公司限速,天朝的种种策略等,常常会致使卡死不动,一天也安装不完的情况
个人安装方法是直接中断图形化界面的安装,就是直接kill掉,这时候他须要导入的yum源已经导入到咱们的系统里了
根据yum源里面的链接http://archive.cloudera.com/cm4/redhat/6/x86_64/cm/4.0.4/
本身手动下载,以下包linux
下载完成后,使用yum本地安装
yum localinstall --nogpgcheck *.rpm
yum安装完成后,从新运行cloudera-manager-installer.bin完成安装(若是安装失败,提示已安装,则进入/usr/share/cmf目录中,删除掉uninstall-cloudera-manager.sh文件便可)
附1:两台主机都要装,只是一台运行图形化界面,做为控制台,另外一台不用动,这里我是使用的node1节点做为控制台
附2:两台主机jdk也要实现安装好,不然也会自动下载安装,推荐用rpm包安装的jdk
3.安装cdh4
①.cloudera-manager安装完成后,会自动启动,能够经过netstat -tnlp发现启动了7182,7180等端口web
经过网页链接http://192.168.1.124:7180进入cloudera-manager的web管理入口,默认管理员用户admin,密码adminsql
登陆以后会提示以下框,便是使用免费版仍是商业版,咱们选择无偿使用shell
②.以后就是彻底cloudera-manager控制台web界面的安装,很简单
首先搜索主机,将两主机ip填入,搜索到主机,而后选择安装数据库
安装版本cdh4,等等,而后就是读条的安装页面,这里跟安装cloudera-manager同样,yum源文件出来以后,直接中断,而后回到系统kill掉yum进程,关闭页面
,经过/etc/yum.repos.d/cloudera-cdh4.repo查看所需下载软件链接http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/4/下载以下rpm包apache
而后跟上面同样,yum localinstall --nogpgcheck *.rpm
最后从新打开http://192.168.1.124:7180页面从新对主机进行安装
附1:cloudera-manager控制台对于已经安装过的软件包再也不从新下载安装
附2:若是网速好的话,能够不用中断,直接图形化界面等待安装完成,可是若是失败了,千万不要点重试,重试会卸载已安装内容,也就是重头再来,因为外国的源,网速神马的都懂的
③.安装玩以上内容后,会有个主机检测,主机多的话会比较慢,这个看我的而定,检测完以后,能够选择服务,这里我选择的是hbase,hadoop,zookeeper,而后启动服务
服务情况实时检测编程
主机情况实时检测centos
进入主机,打开hbase shell测试架构
到这里cdh4框架就可使用了 附:对于没有选择的服务,默认也是不启动的,这个不用担忧,若是须要用到hive等,可自行手动执行