Hadoop数据分析平台搭建

一.配置安装环境html

1> 在虚拟机Vmware上搭建三台Red Hat Enterprise linux,其中一台为master,另外两台位slavesjava

2> 下载相关的软件,如java jdkhadoop-0.20.2等。node

二.安装和配置步骤linux

1> 要是hadoop能过正常的免密码在各个节点中链接传输数据,最重要的是配置SSH,生成密钥。ide

2> jdk的安装,修改/etc/profile文件。oop

3> hadoop安装,同时也要修改hadoopconf目录下的core-site.xmlhdfs-site.xmlmapred-site.xml三个核心文件。测试

4> 最后是格式化HDFS和启动hadoopspa

三.Hadoop数据分析平台3d

v 1>查看hadoop集群orm

     结果以下图所示,其中masterNamenodeJobTrackerSecondaryNamenode。在这里就需说下上面三个单词的意思。

Namenode:是HDFS的守护进程。记录文件时如何分割成数据块的,以及这些数据块被存储在哪些节点上,同时Namenode是个单点,发生故障会是集群崩溃。

SecondaryNamenode:是监控HDFS状态的辅助后台程序,每一个集群都有一个,它的做用是当Namenode故障时能够做为备用Namenode使用。但须要手动切换。

JobTracker:是用于处理做业的后台程序,决定哪些文件参与处理,而后切割task并分配节点,每一个集群只有一个JobTracker且位于master上。

Master

slave1slave2

其中slaves上只有DataNodeTaskTracker

DataNode:负责把HDFS数据块读写到本地文件系统中。

TaskTrecker:管理各自节点上的task

由上图可知在这个集群中有三个节点,其中一个master,两个slaves

下图显示的是NaneNode,能够看到的信息是:

这个集群总共的容量是Configured Capacity 46.32G

DFS使用了          DFS Used         84 KB

存在的节点数是       Live Nodes        3

v 2> 测试hadoop集群

经过运行wordcount这个功能来测试,看上图能够只mapreduce的完成度,

得知已经成功运行了一次做业Completed Jobs

相关文章
相关标签/搜索