举例说明以下:web
(1) Java基础(只需JavaSE知识,不须要学习JavaEE知识)--->类、继承、I/O、反射、泛型...... 数据库
(2) Linux基础(Linux的操做)---->建立文件、目录、vi编辑器......编程
(1) Java基础和Linux基础编程语言
(2) Hadoop的学习:体系结构、原理、编程编辑器
a.第一阶段:HDFS(分布式文件系统)、MapReduce(是一个Java程序,用于大数据的计算)、HBase(NoSQL数据库),这三个是Hadoop中最核心的组件。分布式
b.第二阶段:数据分析引擎:hive、pig 数据采集引擎:dqoop、flume工具
c.第三阶段: web管理工具:HUE Zookeeper:实现Hadoop的HA Oozie:数据流引擎oop
(3) Spark的学习学习
a.第一阶段:Scala编程语言大数据
b.第二阶段:Spark Core---->基于内存、数据的计算
c.第三阶段:Spark SQL----->相似Oracle中的SQL语句
d.第四阶段:Spark Streaming------>进行实时计算(流式计算):例如:自来水厂
(4) Apache Storm的学习
Apache Storm相似Spark Streaming,进行实时计算的系统,实时计算的结果保存在Redis数据库中。因此还须要学习NoSQL数据库Redis(基于内存的数据库)
(1)数据的存储:分布式文件系统(分布式存储)------->HDFS: Hadoop Distributed File System 来源于 GFS: Google File System
(2)数据的计算:分布式计算
(1)GFS:没有硬盘的,数据只能存在内存中
(2)Hadoop的安装模式:
a. 本地模式: 1台
b. 伪分布模式: 1台
c. 全分布模式: 3台