hadoop伪分布式需修改的配置文件(5个)

Hadoop主要的配置文件

Hadoop的配置文件都放在/HADOOP_HOME/confnode

Hadoop配置文件分布式

文件名称oop

格式spa

描述日志

hadoop-env.shxml

Bash脚本进程

记录Hadoop要用的环境变量ip

core-site.xmlhadoop

Hadoop配置XMLit

Hadoop Core的配置项,例如HDFS和MapReduce经常使用的I/O设置等

hdfs-site.xml

Hadoop配置XML

HDFS守护进程的配置项,包括NameNode、SecondaryNameNode、DataNode等

mapred-site.xml

Hadoop配置XML

MapReduce守护进程的配置项

masters

纯文本

运行SecondaryNameNode的机器列表

slaves

纯文本

运行DataNode和TaskTracker的机器列表(每行一个)

hadoop-metrics.properties

Properties文件

控制metrics在Hadoop和上如何如何发布的属性

log4j.properties

Properties文件

系统日志文件、NameNode审计日志、TaskTracker子进程的任务日志的属性

 

伪分布式修改该配置文件

Hadoop安装时经常使用的模式是伪分布式模式,

现将经常使用的配置整理以下:

1 hadoop-env.sh 

添加JAVA_HOME和HADOOP_HOME

export JAVA_HOME=/opt/jdk1.6.0_35

export HADOOP_HOME=/opt/hadoop-0.20.2-cdh3u6

2 core-site.xml

第一个属性用来指定HDFS老大得地址,也就是NameNode的地址

value值是主机名加端口号,若是在host文件中添加了主机名和ip映射,主机名也能够用ip地址替换。。。。。

<property>
        <name>fs.defaultFS</name>
        <value>hdfs://master:9000</value>
   </property>

第二个属性用来指定hadoop运行时产生文件的路径

<property>
        <name>hadoop.tmp.dir</name>
        <value>/master/hadoop-2.5.2/tmp</value>
 </property>

3 hdfs-site.xml

指定hdfs保存数据的副本数量,若是是2,总共有2份

<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>

4  mapred-site.xml

本来hadoop文件夹的etc下是没有mapred-site.xml的。。。。 mv mapred-site.xml.template mapred-site.xml

生成一个 mapred-site.xml

告诉hadoop之后mapreduce运行在yarn上面。。。。
<property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
  </property>

5 yarn-site.xml

添加两个属性,第一个告诉nodemanager获取数据的方式为shuffle

<property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

第二个指定yarn的老大Resourcemanagger的地址

    <property>         <name>yarn.resourcemanager.hostname</name>         <value>master</value>     </property>

相关文章
相关标签/搜索