Ubuntu配置hadoop伪分布式

时间 2019-12-06

标签 ubuntu 配置 hadoop 分布式栏目 Ubuntu 繁體版

原文原文链接

　　1. 设置免密登陆node

　　伪分布式搭建过程当中会涉及各类管理员权限，一次一次输入密码太过麻烦，咱们要求各集群间免密码链接linux

　　此时再用 ssh localhost 命令，无需输入密码就能够直接登录了，以下图所示。浏览器

　　2. 安装Java环境bash

　　见前文ssh

　　3. 安装 Hadoop分布式

　　安装配置见前文oop

　　4. 伪分布式配置3d

　　Hadoop 能够在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既做为 NameNode 也做为 DataNode，同时，读取的是 HDFS 中的文件。日志

　　Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/中，伪分布式须要修改2个配置文件 core-site.xml和 hdfs-site.xml。Hadoop的配置文件是 xml 格式，每一个配置以声明 property 的 name 和 value 的方式来实现。orm

　　I. 修改core-site.xml

　　主要设置tmp的路径和站点，个人hadoop安装路径是/usr/local/hadoop,你们根据我的状况配置

　　II. 修改hdfs-site.xml

　　reliication指定副本数，默认3个，伪分布式虽然只须要配置fs.defaultFS和 dfs.replication就能够运行(官方教程如此)，不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，致使必须从新执行 format 才行。因此咱们进行了设置，同时也指定 dfs.namenode.name.dir和 dfs.datanode.data.dir，不然在接下来的步骤中可能会出错。

　　5. NameNode 的格式化:

　　建议你们能够把hadoop环境变量配置在~/.bashrc中，之后执行命令式不用每次到bin下或者使用绝对路径

　　格式化以后系统会读取配置文件，在指定路径下生成对应文件，具体变化能够前往日志文件中查看。

　　./bin/hdfs namenode -format

　　若是运行结果中出现/dfs/name has been successfully formatted等字眼或者Exiting with status 0表示成功，linux当中0表示True，不然多是配置有问题，须要从新编写并格式化(不推荐直接从新格式化，实在须要操做的话尽可能先删除以前的数据)

　　6. 开启 NameNode 和 DataNode 守护进程。

　　能够经过start-dfs.sh直接执行，也能够经过 sbin/hadoop-daemon.sh start name执行

　　./sbin/start-dfs.sh #start-dfs.sh是个完整的可执行文件，中间没有空格

　　7. 启动状况查看：jps

　　若是发现DataNode未能启动，能够尝试重启进程或者sbin/hadoop-daemon.sh start datanode手动打开,若是两者过程当中皆有异常抛出，建议删除文件从新配置

　　8. 浏览器查看信息

　　成功启动后，能够访问 Web 界面 http://localhost:50070 查看 NameNode 和 Datanode 信息，还能够在线查看 HDFS 中的文件。

　　9. YARN

　　YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性，

　　上述经过 ./sbin/start-dfs.sh 启动 Hadoop，仅仅是启动了 MapReduce 环境，咱们能够启动 YARN ，让 YARN 来负责资源管理与任务调度。

　　(伪分布式不启动 YARN 也能够，通常不会影响程序执行)I. 修改mapred-site.xml

　　首先修改配置文件 mapred-site.xml，这边须要先进行重命名(在hadoop根目录下)

　　II. 配置yarn-site.xml

　　III. 启动yarn

　　IV. 关闭yarn

　　10. 利用yarn查看任务运行

　　启动 YARN 以后，运行实例的方法仍是同样的，仅仅是资源管理方式、任务调度不一样。观察日志信息能够发现，不启用 YARN 时，是 “mapred.LocalJobRunner”在跑任务，启用 YARN 以后，是 “mapred.YARNRunner”在跑任务。启动 YARN 有个好处是能够经过 Web 界面查看任务的运行状况：

Ubuntu配置hadoop伪分布式

​