开始写本身的blog记录本身的学习历程。java
安装经历,很久不用linux命令不会了…这个现查手册,查了不少blog,百度半天发现都是copy 来 copy 去。真的是浪费时间,如今本身安装成功喽,特别的发表出来,给你们分享一下。原本只想简单的写一写,但是发现越写越多…算是本身的我的总结吧,若是能带给你帮助,或你有所收获那么我将很高兴,哈!~(本人刚开始学习Hadoop,欢迎前辈指点,我会将存在问题的地方及时更正!)node
1. 建议去Apache下载hadoop.0.20.2linux
2. java jdk1.6版本(Linux版本的)shell
3. Linux(本身用的centos5.5)centos
4. 最好有一个好的远程链接工具:secureCRT很喜欢用。方便操做。api
首先安装好你的linux环境。这里很少讲了bash
然后呢安装linux下JDK。简单说说喽服务器
我下载了一个架构
在linux右键用命令行打开就能够安装…不要鄙视我,下载错了,太晚了眼花了。若是你是tar.gz结尾的请使用tar命令ssh
tar -zxvf 你的jdk名称.tar.gz -C /opt
tar -zxvf hadoop-0.20.2.tar.gz -C /opt
我将本身的jdk和hadoop都安装在opt目录下,练习环境也没有讲究太多…
这个东东安装好了,仅仅是刚刚开始,好多地方还不知有hadoop和jdk也就是你hadoop命令和java or javac命令在linux想要执行还有点小麻烦。。。
-bash command not found好像是这个提示
配置环境变量其实很简单啦,但是…本身查了半天,猪同样的习性,野猴子的心
用vi /etc/profile命令编译profile文件,记住编辑完后,用cat /etc/profile查看是否保存成功,成功就重启你的linux,而后登录直接输入hadoop和java or javac验证环境变量是否安装成功。
在profile文件最下端加入以下命令:!!!!必须严格区分大小写,标点符号英文下的.
看看这三行英文注释,你会记住这个文件的做用,学java看api习惯看注释了。
重启linux后测试…
出现下面画面说明成功了,红括号只是说明,今天会常常用的命令吧,亲我也是刚开始学习,欢迎批评指正。
jdk环境变量设置成功画面
好的基础的东西都弄好了,下面咱们要配置Hadoop,linux下面都是配置文件啦…
bin目录下一些重要的shell
启动全部节点和关闭全部节点
start-all.sh
stop-all.sh
下面就到了咱们要配置的文件了
下面分别进行配置喽,我已经配置好了,以下图:
Hadoop的组件应用xml文件对其进行的配置
core-site.xml 用于配置common组件的属性
hdfs-site.xml 用于配置HDFS的属性
mapred-site.xml 用于配置mapreduce属性
不一样模式的关键匹配属性
组件名称 |
属性名称 |
独立模式 |
伪分布模式 |
全分布模式 |
Common |
fs.default.name |
file:///默认 |
hdfs://localhost/ |
hdfs://namenode/ |
HDFS |
dfs.replication |
N/A |
1 |
3默认 |
MapReduce |
map.job.tracker |
local默认 |
localhost:8021 |
jobtracker:8021 |
docs中还放置了3个组件的默认配置(有兴趣的同窗能够看看,还有不少PDF格式的文档)
查看我已经配置好的xml文件,
你须要先进去conf目录
cd /opt/hadoop-0.20.2/conf
看到三个上面xml文件,按以下图片修改
例如:
vi mapred-site.xml
下面我经过cat mapred-site.xml查看配置成功
mapred-site.xml
hdfs-site.xml
core-site.xml
好了三个文件配置完了…等等,还有一个须要配置的。
若是上面任务你都顺利完成了那么恭喜你!
$ sudo su –
直接复制下面两行命令执行(不要带前面的井号)。
为了设置不须要密码的ssh
# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
首先 格式化namenode
hadoop-0.20.2 namenode –format
Hadoop 提供一些简化启动的辅助工具。这些工具分为启动(好比 start-dfs)和中止(好比 stop-dfs)两类。下面的简单脚本说明如何启动 Hadoop 节点:
启动全部服务
/opt/hadoop-0.20.2/bin/start-all.sh
关闭全部服务
/opt/hadoop-0.20.2/bin/stop-all.sh
要想检查守护进程是否正在运行,可使用 jps 命令(这是用于 JVM 进程的 ps 实用程序)。这个命令列出 5 个守护进程及其进程标识符。
文件系统进行格式化并返回一些信息,启动 Hadoop 守护进程。
Hadoop 在这个伪分布式配置中启动 5 个守护进程:
namenode:hadoop主服务器,它管理文件系统名称空间和对集群中存储文件的访问
secondarynamenode:不是文件冗余守护进程,而是提供周期检查点和清理任务
datanode:管理到链接节点的存储(一个集群中能够有多个节点)
jobtracker :每一个集群中有一个jobtracker,它负责调度datanode上的工做,每一个datanode上有一个tasktracker,它们执行实际的工做,jobtracker和tasktracker采起主从形式,jobtracker跨datanode分发工做,而tasktracker执行工做,jobtracker还检查工做,若是一个datanode因为某些缘由失败,jobtracker会从新调度之前的工做。
tasktracker:
在启动每一个守护进程时,会看到一些相关信息(指出存储日志的位置)。每一个守护进程都在后台运行。说明完成启动以后伪分布式配置的架构。
测试一下喽
hadoop fs –ls /