Hadoop学习笔记（1）

时间 2019-12-07

标签 hadoop 学习笔记栏目 Hadoop 繁體版

原文原文链接

使用docker搭建分布式环境

今天开始，准备学习大数据分析，参考的教材是O‘REILLY的《Hadoop数据分析》,算是一本比较新的书吧！我本身也属于刚入门，写笔记除了分享，更重要的是能够提升学习的效果！！git

这里我使用的是docker而不是书上推荐的在vmware上安装虚拟机，至于为何抛弃vm而选择docker，固然是docker更加轻量级更加好用，docker能够说是当今虚拟化技术的潮流，固然想更具体的优势能够去查阅相关资料，这里就再也不累述。github

下面先说明一下个人环境配置：docker

系统：Manjaro Linux
Docker version：18.09.2-ce
安装docker（Arch 真爽啊）：
sudo pacman -S docker
更换docker源（使用ustc源）：
sudo gedit /etc/docker/daemon.json
而后把下面的内容加入，便可：

{
  "registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
复制代码

把本身加入docker用户组，这样就运行docker时就不用加sudo了：

echo "hello"
sudo groupadd docker
sudo usermod -aG docker $USER
复制代码

而后重启便可。json

搭建分布式环境

书中搭建的环境是伪分布式的，也就是单机，可是为了未来更深刻地学习云计算和大数据，我在这里搭建的是全分布式的环境，搭建方法很是简单，得益于一个大佬在docker hub上发布了已经配置好的开发环境，使咱们不用被繁琐的配置步骤所困扰，很快地学习Hadoop的核心部分。网络

首先，咱们先到docker hub上拉去相关的镜像，你也能够本身一步步拉，从操做系统到Hadoop再到jdk一个个地拉，而后本身配置，若是闲麻烦（like me），直接拉大佬已经配置好的镜像就好了，方法很简单，运行命令：
sudo docker pull kiwenlau/hadoop:1.0分布式

而后克隆大佬的配置库： git clone https://github.com/kiwenlau/hadoop-cluster-dockeroop

这是我用来测试环境，咱们的目的是学习，因此我后面会再本身写hadoop的配置熟悉一下。学习

建立Hadoop网络：测试

sudo docker network create --driver=bridge hadoop大数据

这个很重要，使用桥接网络咱们才能够模拟分布式集群。

下面先热一下身：启动docker容器： cd hadoop-cluster-docker sudo ./start-container.sh

经过结果你也能够知道，这个环境包含了1个master，2个slaver，对于咱们学习彻底够用了。

这是咱们会进如master的根目录下，运行自带的WordCount程序热身一下先吧：
./start-hadoop.sh
./run-wordcount.sh

以上就是这篇笔记的内容，后续会继续深刻学习，待更。。。

写在最后

今天开始会开始学习Hadoop数据分析，在搭好环境以后对docker更加喜好了，若是未来有机会，也会写一些docker的文章。目前先啃好这本书，上面的内容基本与书上无关，因此后面就是Hadoop实践部分了。开学了，但愿能够保持一月一更，甚至一月多更。