Hadoop伪分布式安装

时间 2019-11-07

原文原文链接

开始写本身的blog记录本身的学习历程。java

构建Linux下Hadoop环境

安装经历，很久不用linux命令不会了…这个现查手册，查了不少blog，百度半天发现都是copy 来 copy 去。真的是浪费时间，如今本身安装成功喽，特别的发表出来，给你们分享一下。原本只想简单的写一写，但是发现越写越多…算是本身的我的总结吧，若是能带给你帮助，或你有所收获那么我将很高兴，哈！~（本人刚开始学习Hadoop，欢迎前辈指点，我会将存在问题的地方及时更正！）node

安装前的准备工做

1. 建议去Apache下载hadoop.0.20.2linux

2. java jdk1.6版本（Linux版本的）shell

3. Linux（本身用的centos5.5）centos

4. 最好有一个好的远程链接工具：secureCRT很喜欢用。方便操做。api

如今咱们能够开始安装了前3项必须有，第四个工具推荐使用。

首先安装好你的linux环境。这里很少讲了bash

然后呢安装linux下JDK。简单说说喽服务器

我下载了一个架构

在linux右键用命令行打开就能够安装…不要鄙视我，下载错了，太晚了眼花了。若是你是tar.gz结尾的请使用tar命令ssh

tar -zxvf 你的jdk名称.tar.gz -C /opt

安装hadoop

tar -zxvf hadoop-0.20.2.tar.gz -C /opt

我将本身的jdk和hadoop都安装在opt目录下，练习环境也没有讲究太多…

这个东东安装好了，仅仅是刚刚开始，好多地方还不知有hadoop和jdk也就是你hadoop命令和java or javac命令在linux想要执行还有点小麻烦。。。

-bash command not found好像是这个提示

那么你就须要配置你的环境变量了

配置环境变量其实很简单啦，但是…本身查了半天，猪同样的习性，野猴子的心

用vi /etc/profile命令编译profile文件，记住编辑完后，用cat /etc/profile查看是否保存成功，成功就重启你的linux，而后登录直接输入hadoop和java or javac验证环境变量是否安装成功。

在profile文件最下端加入以下命令：！！！！必须严格区分大小写，标点符号英文下的.

看看这三行英文注释，你会记住这个文件的做用，学java看api习惯看注释了。

重启linux后测试…

出现下面画面说明成功了，红括号只是说明，今天会常常用的命令吧，亲我也是刚开始学习，欢迎批评指正。

jdk环境变量设置成功画面

好的基础的东西都弄好了，下面咱们要配置Hadoop，linux下面都是配置文件啦…

仍是先看看hadoop目录结构吧…

bin目录下一些重要的shell

启动全部节点和关闭全部节点

start-all.sh

stop-all.sh

下面就到了咱们要配置的文件了

Hadoop配置文件

下面分别进行配置喽，我已经配置好了，以下图：

Hadoop的组件应用xml文件对其进行的配置

core-site.xml 用于配置common组件的属性

hdfs-site.xml 用于配置HDFS的属性

mapred-site.xml 用于配置mapreduce属性

不一样模式的关键匹配属性

组件名称	属性名称	独立模式	伪分布模式	全分布模式
Common	fs.default.name	file:///默认	hdfs://localhost/	hdfs://namenode/
HDFS	dfs.replication	N/A	1	3默认
MapReduce	map.job.tracker	local默认	localhost:8021	jobtracker:8021

docs中还放置了3个组件的默认配置（有兴趣的同窗能够看看，还有不少PDF格式的文档）

查看我已经配置好的xml文件，

你须要先进去conf目录

cd /opt/hadoop-0.20.2/conf

看到三个上面xml文件，按以下图片修改

例如：

vi mapred-site.xml

下面我经过cat mapred-site.xml查看配置成功

mapred-site.xml

hdfs-site.xml

core-site.xml

好了三个文件配置完了…等等，还有一个须要配置的。

若是上面任务你都顺利完成了那么恭喜你！

设置无需密码的ssh

$ sudo su –

直接复制下面两行命令执行（不要带前面的井号）。

为了设置不须要密码的ssh

# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

启动Hadoop

首先格式化namenode

hadoop-0.20.2 namenode –format

Hadoop 提供一些简化启动的辅助工具。这些工具分为启动（好比 start-dfs）和中止（好比 stop-dfs）两类。下面的简单脚本说明如何启动 Hadoop 节点：

启动全部服务

/opt/hadoop-0.20.2/bin/start-all.sh

关闭全部服务

/opt/hadoop-0.20.2/bin/stop-all.sh

要想检查守护进程是否正在运行，可使用 jps 命令（这是用于 JVM 进程的 ps 实用程序）。这个命令列出 5 个守护进程及其进程标识符。

文件系统进行格式化并返回一些信息，启动 Hadoop 守护进程。

Hadoop 在这个伪分布式配置中启动 5 个守护进程：

namenode：hadoop主服务器，它管理文件系统名称空间和对集群中存储文件的访问

secondarynamenode：不是文件冗余守护进程，而是提供周期检查点和清理任务

datanode：管理到链接节点的存储（一个集群中能够有多个节点）

jobtracker ：每一个集群中有一个jobtracker，它负责调度datanode上的工做，每一个datanode上有一个tasktracker，它们执行实际的工做，jobtracker和tasktracker采起主从形式，jobtracker跨datanode分发工做，而tasktracker执行工做，jobtracker还检查工做，若是一个datanode因为某些缘由失败，jobtracker会从新调度之前的工做。

tasktracker：

在启动每一个守护进程时，会看到一些相关信息（指出存储日志的位置）。每一个守护进程都在后台运行。说明完成启动以后伪分布式配置的架构。

测试Hadoop

测试一下喽

hadoop fs –ls /