简介:Hadoop分布式系统体系结构的核心: HDFS和MapReduce 。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程当中提供了文件操做和存储等支持,MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工做,并收集结果,两者相互做用,完成了Hadoop分布式集群的主要任务。node
一 搭建环境:shell
1 Linux 操做系统 apache
2 Linux远程链接工具 xshell+xftpeclipse
3 Hadoop 源码下载地址分布式
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.2/hadoop-2.7.2-src.tar.gz工具
启动Hadoopoop
1 ./etc/hadoop/hadoop-env.sh 中设置 JAVA_HOME 变量,即在该文件中找到:
export JAVA_HOME=${JAVA_HOME}
将这一行改成JAVA安装位置:spa
修改配置文件操作系统
2 配置完成后,执行 NameNode 的格式化: /bin/hdfs namenode -format插件
修改core-site.xml
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/zjf/hadoop-0.20.2/tmpPath</value> !这里改下路径 </property> </configuration>
修改hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
启动hdfs start-dfs.sh
中止 stop-dfs.sh
配置yarn
修改mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
修改 yarn-site.xml 文件
#添加以下内容
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
启动yarn
start-yarn.sh
#中止yarn stop-yarn.sh
管理界面:http://localhost:8088
NameNode界面:http://localhost:50070
HDFS NameNode界面:http://localhost:8042
二 在Eclipse下装入Hadoop插件:
https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar
将jar放在eclipse的plugin下,重启eclipse
打开Window->View View->Other 选择Map/Reduce Tools,单击Map/Reduce Locations,会打开一个View,
添加Hadoop Loacation,其中Host和Port的内容跟据conf/hadoop-site.xml的配置填写,UserName 是用户名,如