1.马士兵_hadoop2.7.3入门

1.咱们将搭建一个hadoop的基础集群node

2.用VitrualBox安装服务器基础版的Centos7.python

3.由于虚拟机须要设置为host-only,Win10对VirtualBox并不支持host-only的建立,该如何办呢?host-only是让虚拟机间能够通行,和宿主能够通讯,通常和Internet隔离来保证安全。linux

4.56.100是电信机房的电脑,xshell将链接访问之。56.1是windows电脑。win8.1安装xftp时可能报异常丢失nslicense.dll,暂未解决?shell

5.配置文件修改windows

a.设置ip:/etc/sysconfig/network-scripts/ifcfg-enp0s3安全

TYPE=Ethernet服务器

IPADDR=192.168.56.100架构

NETMASK=255.255.255.0oop

b.设置网关:/etc/sysconfig/network测试

NETWORKING=yes

GATEWAY=192.168.56.1

hostnamectl set-hostname master

systemctl restart network

ping 192.168.56.1测试链接成功,windows中ping 192.168.56.100测试成功。

c.若是想让虚拟机也能够上网,共享internet,那就设置为共享的192.168.137.1网段的信息。并将虚拟机的网段也统一到192.168.137.1网段内,就能够相互通讯,而且上internet网了。配合dns服务器时,简单的方式是:echo "nameserver 114.114.114.114">> /etc/resolv.conf ,网上找时候看了一堆,有点复杂。

6.而后用xshell进行登陆,经过xftp上传hadoop,jdk上传到linux的/usr/local机器上。

7.rpm -ivh jdkxxx.rpm 安装jdk。tar -xvf hadoop.xx.zip

8.配置hadoop运行jdk环境。/usr/local/hadoop/etc/hadoop/hadoop-env.sh   ,由于会用到jdk功能。

9.hadoop执行命令的路径加到咱们的path变量的路径里,这样那个目录下面均可以执行hadoop命令。/etc/profile,export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin,/source/profile。

10.测试安装jdk,hadoop成功后,而后咱们复制虚拟机。不可能重复新再安装一遍吧。

12.而后将slave1,2,3对应的ip修改成101,102,103,ping 192.168.56.1能够联通windows属主机。

13.host-only的好处是设置完ip能够保持不变。bridge是须要真实的IP,NAT每次启动IP可能变化。

14.最后启动4台机器,这是架构。

14.而后相互ping确认均可以互相通讯后,中止并关闭全部机器的防火墙。systemctl stop firewalld;systemctl  disable firewalld。

15.master是管理者,文件名及相关路径的记录者,datenode是数据存储的机器。

16.下面启动hadoop. 你们都要知道master是在那台机器上,core-site.xml是你们都要设置的:/usr/local/hadoop/etc/hadoop/core-site.xml。

17.咱们用最基础简单的核心方法,再迭代的知识更新。

配置的信息:

<property>
        <name>fs.defaultFS</name>  
        <value>hdfs://master:9000</value>
</property>
18.启动hadoop,master启动namenode,salve*启动datenode。

19. 修改让机器之间相互认识名字。/etc/hosts

内容:

192.168.56.100 master
192.168.56.101 slave1
192.168.56.102 slave2
192.168.56.103 slave3
20.内容存储格式化:hdfs namenode -format,注意是在/tmp下的。

21.master启动: hadoop-daemon.sh start namenode,jps后显示 NameNode,说明启动完毕。

22.datenode启动,hadoop-daemon.sh start datanode,jps显示datanode,说明启动完毕。

33.此时master管理着slave这些节点。并相互创建了联系。

总结:

1.市面上不少大数据课程都是集成了master脚本一下就配置和部署好相关机器的配置了,因此看着比较乱,我建议先把简单的搭起来,看看hadoop是个什么,写个简单的例子,慢慢就了解了。

2.xshell能够同步多发送命令很好用。

3.hadoop大概10个小时课程概念基本就创建起来了,mapreduce虽然什么都能干,可是别扭。实际工做中不经常使用,实际用hive,scalar,python来开发。

相关文章
相关标签/搜索