在学习hadoop以前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标以后要分几步走,而后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。java
hadooplinux
Hadoop学习两步走:linux学习、hadoop学习。程序员
在接触hadoop以前我有java基础,为此个人计划是首先学习Linux,而后学习hadoop生态系统,为此学习hadoop第一步计划就是学习linux了,而后linux又能够分为四个步骤走。面试
linux任务第一个目标就是要熟练操做linux经常使用命令以及网络配置;第二个目标就是熟悉用户以及权限管理操做;第三个目标就是熟悉软件包以及系统命令管理,第四个就是要学习shell编程了。Linux系统学习完毕以后,紧接着就是第二个计划了学习Hadoop。shell
Hadoop阶段分两步走。数据库
第一阶段能熟练搭建伪分布式集群以及彻底分布式集群,我我的认为先搭建hadoop环境而后再学习hadoop这样效果更好。就如同看别人代码同样,咱们先把别人代码能跑起来,而后再分析代码,若是代码都跑不起来,何谈代码分析,因此先让hadoop环境搭建起来,能正常运行wordcount程序,咱们才能慢慢分析整个Hadoop生态系统,这样咱们能对hadoop有个总体上的认识。编程
Hadoop第二阶段就是基于第一阶段的基础上,再细分几大阶段:网络
首先第一阶段总体上认识hadoop生态系统,了解MapReduce分布式计算框架、Yarn集群资源管理和调度平台、hdfs分布式文件系统、hive数据仓库、HBase实时分布式数据库、Flume日志收集工具、sqoop数据库ETL工具、zookeeper分布式协做服务、Mahout数据挖掘库;架构
第二阶段学习MapReduce,MapReduce做为hadoop核心内容,要先易后难,首先了解Mapper、Reducer、Configuration、job等这些类,熟悉MapReduce流程图,而后写简单的单词统计代码,总体上对MapReduce认识,以后学习MapReduce运行机制,熟练掌握,MapReduce输入格式,MapReduce输出格式,以及MapReduce优化;app
第三阶段学习hadoop另外一个核心内容HDFS,首先明白什么是hdfs,而后再分析hdfs的优势,而后再了解Hdfs的缺点有哪些,HDFS是如何存储数据的,采用什么样的架构,咱们如何实现读取和写入HDFS中的文件,以及了解HDFS副本存放策略,同时熟练掌握HDFS的shell访问和java访问。
第三阶段就是学习hadoop另外一个核心内容:Yarn,首先咱们要了解Yarn是什么,为何使用Yarn,Yarn的构架,Yarn的原理。我我的认为,hadoop初学者只要掌握了提供海量数据存储的HDFS,分布式计算的MapReduce,以及集群资源管理和调度平台的yarn,基本上也就掌握了Hadoop最核心的东西,也为之后的hbase、hive学习打下了坚实的基础。
以上是我我的学习大数据的心路历程,但愿可以帮到其余人。
结语
感谢您的观看,若有不足之处,欢迎批评指正。
若是有对大数据感兴趣的小伙伴或者是从事大数据的老司机能够加群:
658558542 (☛点击便可加入群聊)
里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,海量数据高级分析语言,海量数据存储分布式存储,以及海量数据分析分布式计算等部分,送给每一位大数据小伙伴,这里不止是小白汇集地,还有大牛在线解答!欢迎初学和进阶中的小伙伴一块儿进群学习交流,共同进步!
最后祝福全部遇到瓶颈的大数据程序员们突破本身,祝福你们在日后的工做与面试中一切顺利。