hadoop学习记录-安装

时间 2019-12-20

原文原文链接

最近比较迷hadoop，由于以为在现在互联网时代大数据应用将会有不错的前景。虽然如今已经有了不少hadoop解决方案的应用商好比说Hortonworks、Cloudera等等这样的公司，可是我仍是以为本身从apache上下载安装hadoop是一件很酷的事，这样的话全部配置都是在本身的掌握之下才能更好的学习hadoop的知识。闲话很少说了，接下来就是记录本身学习hadoop的心得与技巧，高手看了一笑了之，新手一块儿共勉！java

一、先从官网http://hadoop.apache.org上下载hadoop1.x版本（暂未研究Hadoop2）. node

二、安装linux操做系统，不少教程都是安装的ubuntu系统但是我不喜欢，本人仍是喜欢CentOS和RedHat系统，有闲置的真机固然最好，若是没有的话就只能玩虚拟机了。(本人的笔记本配置还行，8G的内存因此就搭建了五台虚拟机，一个namenode,一个seco)linux

三、将下载的hadoop压缩包解压到/usr/local目录（不少教材推荐目录），最重要的安装jdk，最好是将系统原有的jdk版本卸载而后从新从官网下载较新的比较稳定版本的jdk，建议下载压缩包格式的jdk。一样的将下载好的jdk压缩包也解压到/usr/local目录下。apache

四、hadoop与jdk都已经解压到了指定的目录中，接下来就是配置它们的环境变量了，在用户的主目录下的.bash_profile或者.bashrc文件中添加PATH变量：ubuntu

而且将变量下的bin目录导入到PATH中：bash

最后经过运行jdk命令java -version查看jdk安装是否成功,运行hadoop命令hadoop version查看hadoop是否安装成功：ssh

五、安装成功后，而后就是对集群的配置了，为了便于对hadoop配置的管理和往后升级的方便，将hadoop安装目录中的conf目录移到/etc下并将conf目录重命名为hadoop，则hadoop的配置文件就到移到了/etc/hadoop目录下这样好像也还符合linux系统的习惯，而后在hadoop安装目录中创建一个软连接conf到/etc/hadoop：ide

六、配置ssh，这个步骤是比较重要的，不少人都会问为何要配置这一步，若是你研究过hadoop的启动脚本的话你就能够发现其实就是namenode节点须要ssh登陆到各个datanode上去启动hadoop的进程。因此并不须要有的书上说的要配置因此节点间相互的无密码登陆。那么咱们就先在namenode节点上生成密钥对：oop

一直回车，完成后会在用户主目录下的.ssh目录下生成两个文件：学习

经过命令将id_rsa.pub公钥文件复制到其余节点上去：ssh-copy-id <hostname>，这样就直接把文件拷贝到了其余节点的.ssh目录下而且还自动改成了authorized_key文件

而后能够逐一的去检验ssh登陆了。