今天开始,准备学习大数据分析,参考的教材是O‘REILLY的《Hadoop数据分析》,算是一本比较新的书吧!我本身也属于刚入门,写笔记除了分享,更重要的是能够提升学习的效果!!git
这里我使用的是docker而不是书上推荐的在vmware上安装虚拟机,至于为何抛弃vm而选择docker,固然是docker更加轻量级更加好用,docker能够说是当今虚拟化技术的潮流,固然想更具体的优势能够去查阅相关资料,这里就再也不累述。github
下面先说明一下个人环境配置:docker
sudo pacman -S docker
sudo gedit /etc/docker/daemon.json
{
"registry-mirrors": ["https://docker.mirrors.ustc.edu.cn"]
}
复制代码
docker
用户组,这样就运行docker时就不用加sudo
了:echo "hello"
sudo groupadd docker
sudo usermod -aG docker $USER
复制代码
而后重启便可。json
书中搭建的环境是伪分布式的,也就是单机,可是为了未来更深刻地学习云计算和大数据,我在这里搭建的是全分布式的环境,搭建方法很是简单,得益于一个大佬在docker hub上发布了已经配置好的开发环境,使咱们不用被繁琐的配置步骤所困扰,很快地学习Hadoop的核心部分。网络
首先,咱们先到docker hub上拉去相关的镜像,你也能够本身一步步拉,从操做系统到Hadoop再到jdk一个个地拉,而后本身配置,若是闲麻烦(like me),直接拉大佬已经配置好的镜像就好了,方法很简单,运行命令:
sudo docker pull kiwenlau/hadoop:1.0
分布式
而后克隆大佬的配置库: git clone https://github.com/kiwenlau/hadoop-cluster-docker
oop
这是我用来测试环境,咱们的目的是学习,因此我后面会再本身写hadoop的配置熟悉一下。学习
建立Hadoop网络:测试
sudo docker network create --driver=bridge hadoop
大数据
这个很重要,使用桥接网络咱们才能够模拟分布式集群。
下面先热一下身: 启动docker容器: cd hadoop-cluster-docker
sudo ./start-container.sh
经过结果你也能够知道,这个环境包含了1个
master
,2个slaver
,对于咱们学习彻底够用了。
这是咱们会进如master
的根目录下,运行自带的WordCount程序热身一下先吧:
./start-hadoop.sh
./run-wordcount.sh
以上就是这篇笔记的内容,后续会继续深刻学习,待更。。。
今天开始会开始学习Hadoop数据分析,在搭好环境以后对docker更加喜好了,若是未来有机会,也会写一些docker的文章。目前先啃好这本书,上面的内容基本与书上无关,因此后面就是Hadoop实践部分了。开学了,但愿能够保持一月一更,甚至一月多更。