大数据经典学习路线(及供参考)之 一

1.Linux基础和分布式集群技术java

学完此阶段可掌握的核心能力:nginx

熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;程序员

学完此阶段可解决的现实问题:web

搭建负载均衡、高可靠的服务器集群,能够增大网站的并发访问量,保证服务不间断地对外服务;shell

学完此阶段可拥有的市场价值:数据库

具有初级程序员必要具有的Linux服务器运维能力。编程

1.内容介绍:api

在大数据领域,使用最多的操做系统就是Linux系列,而且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操做系统、Linux经常使用命令、Linux经常使用软件安装、Linux网络、防火墙、Shell编程等。服务器

2.案例:搭建互联网高并发、高可靠的服务架构。网络

2.离线计算系统课程阶段

1. 离线计算系统课程阶段

HADOOP核心技术框架

学完此阶段可掌握的核心能力:

一、经过对大数据技术产生的背景和行业应用案例了解hadoop的做用;二、掌握hadoop底层分布式文件系统HDFS的原理、操做和应用开发;三、掌握MAPREDUCE分布式运算系统的工做原理和分布式分析应用开发;四、掌握HIVE数据仓库工具的工做原理及应用开发。

学完此阶段可解决的现实问题:

一、熟练搭建海量数据离线计算平台;二、根据具体业务场景设计、实现海量数据存储方案;三、根据具体数据分析需求实现基于mapreduce的分布式运算程序;

学完此阶段可拥有的市场价值:

具有企业数据部初级应用开发人员的能力

1.1 HADOOP快速入门

1.1.1 hadoop知识背景

什么是hadoop、hadoop产生背景、hadoop在大数据云计算中的位置和关系、国内hadoop的就业状况分析及课程大纲介绍

国内外hadoop应用案例介绍

分布式系统概述、hadoop生态圈及各组成部分的简介

1.1.2 HIVE快速入门

hive基本介绍、hive的使用、数据仓库基本知识

1.1.3 数据分析流程案例

web点击流日志数据挖掘的需求分析、数据来源、处理流程、数据分析结果导出、数据展示

1.1.4 hadoop数据分析系统集群搭建

集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态测试

HIVE的配置安装、HIVE启动、HIVE使用测试

1.2 HDFS详解

1.2.1 HDFS的概念和特性

什么是分布式文件系统、HDFS的设计目标、HDFS与其余分布式存储系统的优劣势比较、HDFS的适用场景

1.2.2 HDFS的shell操做

HDFS命令行客户端启动、HDFS命令行客户端的基本操做、命令行客户端支持的经常使用命令、经常使用参数介绍

1.2.3 HDFS的工做机制

HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程

NAMENODE工做机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工做机制、DATANODE动态增减、全局数据负载均衡

1.2.4 HDFS的java应用开发

搭建开发环境、获取api中的客户端对象、HDFS的java客户端所具有的经常使用功能、HDFS客户端对文件的经常使用操做实现、利用HDFS的JAVA客户端开发数据采集和存储系统

1.3 MAPREDUCE详解

1.3.1 MAPREDUCE快速上手

为何须要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式

1.3.2 MAPREDUCE程序的运行机制

MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的combiner组件应用、MAPREDUCE中的序列化框架及应用、MAPREDUCE中的排序、MAPREDUCE中的自定义分区实现、MAPREDUCE的shuffle机制、MAPREDUCE利用数据压缩进行优化、MAPREDUCE程序与YARN之间的关系、MAPREDUCE参数优化

经过以上各组件的详解,深入理解MAPREDUCE的核心运行机制,从而具有灵活应对各类复杂应用场景的能力

MAPREDUCE实战编程案例:经过一个实战案例来熟悉复杂MAPREDUCE程序的开发。该程序是从nginx服务器产生的访问服务器中计算出每一个访客的访问次数及每次访问的时长。原始数据样例以下:

经过一系列的MAPREDUCE程序——清洗、过滤、访问次数及时间分析,最终计算出需求所要的结果,用于支撑页面展示:

1.4 HIVE加强

1.4.1 HIVE基本概念

HIVE应用场景、HIVE内部架构、HIVE与hadoop的关系、HIVE与传统数据库对比、HIVE的数据存储机制、HIVE的运算执行机制

1.4.2 HIVE基本操做

HIVE中的DDL操做、HIVE中的DML操做、在HIVE中如何实现高效的JOIN查询、HIVE的内置函数应用、HIVE shell的高级使用方式、HIVE经常使用参数配置、HIVE自定义函数和TRANSFORM的使用技巧、HIVE UDF开发实例

1.4.3 HIVE高级应用

HIVE执行过程分析及优化策略、HIVE在实战中的最佳实践案例、HIVE优化分类详解、HIVE实战案例--数据ETL、HIVE实战案例--用户访问时长统计

HIVE实战案例--级联求和报表实例:

离线数据挖掘系统

学完此阶段可掌握的核心能力:

一、经过对数据仓库知识的增强初步掌握数据仓库的核心概念和设计流程;二、经过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;三、经过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展示的整套流程

学完此阶段可解决的现实问题:

一、可根据企业具体场景设计海量数据分析系统的通用架构二、根据具体场景的特色有针对性地调整数据分析各环节的技术选型;三、根据具体需求搭建起整套离线数据分析系统;四、简单数据仓库模型的设计和架构五、各环节具体功能模块的开发实现

学完此阶段可拥有的市场价值:

具有企业数据部中高级应用开发和初级架构师能力

欢迎加群:784789432,进来交流学习,里面有更全面的学习方法以及学习资料

相关文章
相关标签/搜索