Hdoop 学习笔记

时间 2019-11-09

标签 hdoop 学习笔记繁體版

原文原文链接

简介：Hadoop分布式系统体系结构的核心： HDFS和MapReduce 。HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程当中提供了文件操做和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工做，并收集结果，两者相互做用，完成了Hadoop分布式集群的主要任务。node

一搭建环境：shell

1 Linux 操做系统 apache

2 Linux远程链接工具 xshell+xftpeclipse

3 Hadoop 源码下载地址分布式

http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.2/hadoop-2.7.2-src.tar.gz工具

启动Hadoopoop

1 ./etc/hadoop/hadoop-env.sh 中设置 JAVA_HOME 变量，即在该文件中找到：
export JAVA_HOME=${JAVA_HOME}
将这一行改成JAVA安装位置：spa

修改配置文件操作系统

2 配置完成后，执行 NameNode 的格式化: /bin/hdfs namenode -format插件

修改core-site.xml

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/zjf/hadoop-0.20.2/tmpPath</value> ！这里改下路径
</property>
</configuration>

修改hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

启动hdfs start-dfs.sh

中止 stop-dfs.sh

配置yarn

修改mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

修改 yarn-site.xml 文件

#添加以下内容

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

启动yarn

start-yarn.sh

#中止yarn stop-yarn.sh

管理界面：http://localhost:8088

NameNode界面：http://localhost:50070

HDFS NameNode界面：http://localhost:8042

二在Eclipse下装入Hadoop插件：

https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar

将jar放在eclipse的plugin下，重启eclipse

打开Window->View View->Other 选择Map/Reduce Tools，单击Map/Reduce Locations，会打开一个View，

添加Hadoop Loacation，其中Host和Port的内容跟据conf/hadoop-site.xml的配置填写，UserName 是用户名，如