说明:本文的hadoop安装环境为Ubuntu环境。node
1. 安装JDK,配置Java环境
正则表达式
2. SSH免登陆(这一步能够忽略,可是启动hadoop的时候,须要手动为每一个节点服务输入密码)shell
先确认可否不输入口令就用SSH登陆localhost: ssh
$ ssh localhost
若是没有安装SSH服务,则安装SSH分布式
$ sudo apt-get install openssh-server -----安装SSH
实现SSH免登陆oop
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
3. 解压所下载的Hadoop发行版。编辑 etc/hadoop/hadoop-env.sh文件,配置JAVA_HOME环境。spa
export JAVA_HOME=/home/mango/jdk/jdk1.8.0_45
4.尝试以下命令,将会显示hadoop 脚本的使用文档。调试
$ ./bin/hadoop
如今你能够用如下三种支持的模式中的一种启动Hadoop集群:日志
单机模式code
伪分布式模式
彻底分布式模式(后续补充)
默认状况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试很是有帮助。
下面的实例将已解压的 conf 目录拷贝做为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。
$ mkdir input $ cp conf/*.xml input $ ./bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' $ cat output/*
Hadoop能够在单节点上以所谓的伪分布式模式运行,此时每个Hadoop守护进程都做为一个独立的Java进程运行。
1. 配置etc/hadoop/core-site.xml
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:8200</value> </property> </configuration>
2. 配置etc/hadoop/hdfs-site.xml(副本数为1)
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
3. 配置etc/hadoop/slaves文件,设置datanode为localhost
localhost
4. 格式化HDFS文件系统
$ ./bin/hadoop namenode -format
5. 启动hdfs服务
$ ./sbin/start-dfs.sh
6. 经过jps命令确认启动成功(也能够经过http://localhost:50070页面确认)
$ jps 10178 SecondaryNameNode 9923 DataNode 9706 NameNode 15439 Jps
1.配置etc/hadoop/mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
2. 配置etc/hadoop/mapred-yarn.xml
<configuration> <!-- Site specific YARN configuration properties --> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
3. 启动Yarn服务
$ ./sbin/start-yarn.sh
4.经过jps命令查看结果(也能够经过http://localhost:8088确认启动成功)
$ jps 14849 NodeManager 10178 SecondaryNameNode 9923 DataNode 14647 ResourceManager 9706 NameNode 15439 Jps
说明:Hadoop守护进程的日志写入到 ${HADOOP_LOG_DIR} 目录 (默认是 ${HADOOP_HOME}/logs).