大数据学习之路（持续更新中...）

时间 2019-11-20

标签数据学习之路持续更新繁體版

原文原文链接

在16年8月份至今，一直在努力学习大数据大数据相关的技术，很想了解众多老司机的学习历程。由于大数据涉及的技术很广须要了解的东西也不少，会让不少新手望而却步。因此，我就在本身学习的过程当中总结一下学到的内容以及踩到的一些坑，但愿获得老司机的指点和新手的借鉴。html

目前正在结合机器学习理论学习MLlib源码java

前言

在学习大数据以前，先要了解他解决了什么问题，能给咱们带来什么价值。一方面，之前IT行业发展没有那么快，系统的应用也不完善，数据库足够支撑业务系统。可是随着行业的发展，系统运行的时间愈来愈长，搜集到的数据也愈来愈多，传统的数据库已经不能支撑全量数据的存储工做；另外一方面，数据愈来愈多，单机的计算已经成为瓶颈。所以，基于分布式的大数据系统崭露头角。那么大数据系统里面都有什么东西呢？能够参考下面的图node

在存储上，hdfs的分布式存储能够任意水平扩展，能够解决数据存储的难题。在计算上，从最初的MapReduce，把任务水平拆分，多台机器并行计算，再汇总结果；到基于Spark的内存计算，改造Mapreduce每次数据落盘以及编程方式的痛点。mysql

有了存储和计算框架，周边就衍生出了不少管理、缓存相关的技术，好比：面试

yarn解决多租户资源调度的难题，
flume解决数据传输的难题，
sqoop解决分布式存储数据与传统DB数据之间的转换，
oozie解决了大数据计算任务的调度，
kafka提供了发布订阅机制的消息队列，
zookeeper能够帮助用户完成主备的选举，
hive在hdfs的基础上提供了数仓的功能，
hbase则基于hdfs实现列式数据库....

上面都是hadoop生态的，因为hadoop中计算模型广泛是mapreduce，可是它的编程风格和计算机制让不少人使用不便。所以后来spark逐渐代替了mapr成为主流的计算框架。Spark也有它本身的生态，可是因为hadoop更多更早的被应用到企业，因此spark也能够无缝的集成hadoop生态中的产品。spark更多只是扮演一个计算的框架，在这个框架上，提供了基本的计算模块core，基于sql的计算引擎spark sql，对接实时数据的流式计算spark streaming，算法相关的mlib以及图计算相关的graphx。算法

这些框架都在这个大数据生态中扮演了本身重要的角色，他们协同工做就能够帮助咱们解决不少难题。因为我也是接触不久，因此就按照本身学习和工做涉及的内容，在下面按照各个章节进行介绍，后续也会持续的更新。但愿对全部对大数据感兴趣的sql

学习必备

在学习大数据的过程当中，须要具有的能力或者知识，在这里简单的罗列一下：shell

语言基础：须要会使用shell脚本、java和scala(这俩语言主要是用于平常代码和阅读源代码)
工具：IDE如eclipse或者idea，虚拟机和secureCRT链接工具
书籍：《Hadoop权威指南》《Hadoop YARN权威指南》《Spark快速大数据分析》《从Paxos到zookeeper分布式一致性原理与实践》《Hive编程指南》其余的书籍阅读后再推荐吧
博客：董的博客
进阶：阅读官方文档（帮你了解它都能作什么）、源代码（帮你了解它是怎么作的）

hdfs

hdfs是大数据系统的基础，它提供了基本的存储功能，因为底层数据的分布式存储，上层任务也能够利用数据的本地性进行分布式计算。hdfs思想上很简单，就是namenode负责数据存储位置的记录，datanode负责数据的存储。使用者client会先访问namenode询问数据存在哪，而后去datanode存储；写流程也基本相似，会先在namenode上询问写到哪，而后把数据存储到对应的datanode上。因此namenode做为整个系统的灵魂，一旦它挂掉了，整个系统也就没法使用了。在运维中，针对namenode的高可用变得十分关键。数据库

2016-07-28 单节点部署Hadoop教程
2016-07-28 Hadoop HDFS 用户指南

mapreduce

hive

hive基于hdfs构建了数据仓库系统，它以hdfs做为存储，依赖于数据库(嵌入式的数据库derby或者独立的数据mysql或oracle)存储表schema信息，并完成基于sql自动解析建立mapreduce任务(因为mapreduce计算效率比较差，目前官方推荐的是底层计算模型采用tez或者spark)。因此hive能够理解为：hdfs原始存储+DB Schema信息存储+SQL解析引擎+底层计算框架组成的数据仓库。apache

官方文档