1.咱们将搭建一个hadoop的基础集群node
2.用VitrualBox安装服务器基础版的Centos7.python
3.由于虚拟机须要设置为host-only,Win10对VirtualBox并不支持host-only的建立,该如何办呢?host-only是让虚拟机间能够通行,和宿主能够通讯,通常和Internet隔离来保证安全。linux
4.56.100是电信机房的电脑,xshell将链接访问之。56.1是windows电脑。win8.1安装xftp时可能报异常丢失nslicense.dll,暂未解决?shell
5.配置文件修改windows
a.设置ip:/etc/sysconfig/network-scripts/ifcfg-enp0s3安全
TYPE=Ethernet服务器
IPADDR=192.168.56.100架构
NETMASK=255.255.255.0oop
b.设置网关:/etc/sysconfig/network测试
NETWORKING=yes
GATEWAY=192.168.56.1
hostnamectl set-hostname master
systemctl restart network
ping 192.168.56.1测试链接成功,windows中ping 192.168.56.100测试成功。
c.若是想让虚拟机也能够上网,共享internet,那就设置为共享的192.168.137.1网段的信息。并将虚拟机的网段也统一到192.168.137.1网段内,就能够相互通讯,而且上internet网了。配合dns服务器时,简单的方式是:echo "nameserver 114.114.114.114">> /etc/resolv.conf ,网上找时候看了一堆,有点复杂。
6.而后用xshell进行登陆,经过xftp上传hadoop,jdk上传到linux的/usr/local机器上。
7.rpm -ivh jdkxxx.rpm 安装jdk。tar -xvf hadoop.xx.zip
8.配置hadoop运行jdk环境。/usr/local/hadoop/etc/hadoop/hadoop-env.sh ,由于会用到jdk功能。
9.hadoop执行命令的路径加到咱们的path变量的路径里,这样那个目录下面均可以执行hadoop命令。/etc/profile,export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin,/source/profile。
10.测试安装jdk,hadoop成功后,而后咱们复制虚拟机。不可能重复新再安装一遍吧。
12.而后将slave1,2,3对应的ip修改成101,102,103,ping 192.168.56.1能够联通windows属主机。
13.host-only的好处是设置完ip能够保持不变。bridge是须要真实的IP,NAT每次启动IP可能变化。
14.最后启动4台机器,这是架构。
14.而后相互ping确认均可以互相通讯后,中止并关闭全部机器的防火墙。systemctl stop firewalld;systemctl disable firewalld。
15.master是管理者,文件名及相关路径的记录者,datenode是数据存储的机器。
16.下面启动hadoop. 你们都要知道master是在那台机器上,core-site.xml是你们都要设置的:/usr/local/hadoop/etc/hadoop/core-site.xml。
17.咱们用最基础简单的核心方法,再迭代的知识更新。
配置的信息:
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
18.启动hadoop,master启动namenode,salve*启动datenode。
19. 修改让机器之间相互认识名字。/etc/hosts
内容:
192.168.56.100 master
192.168.56.101 slave1
192.168.56.102 slave2
192.168.56.103 slave3
20.内容存储格式化:hdfs namenode -format,注意是在/tmp下的。
21.master启动: hadoop-daemon.sh start namenode,jps后显示 NameNode,说明启动完毕。
22.datenode启动,hadoop-daemon.sh start datanode,jps显示datanode,说明启动完毕。
33.此时master管理着slave这些节点。并相互创建了联系。
总结:
1.市面上不少大数据课程都是集成了master脚本一下就配置和部署好相关机器的配置了,因此看着比较乱,我建议先把简单的搭起来,看看hadoop是个什么,写个简单的例子,慢慢就了解了。
2.xshell能够同步多发送命令很好用。
3.hadoop大概10个小时课程概念基本就创建起来了,mapreduce虽然什么都能干,可是别扭。实际工做中不经常使用,实际用hive,scalar,python来开发。