随着云计算、大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈。谷歌、淘宝、百度、京东等底层都应用hadoop。愈来愈多的企 业急需引入hadoop技术人才。因为掌握Hadoop技术的开发人员并很少,直接致使了这几年hadoop技术的薪水远高于JavaEE及 Android程序员。java
Hadoop入门薪资已经达到了 8K 以上,工做1年可达到 1.2W 以上,具备2-3年工做经验的hadoop人才年薪能够达到 30万—50万 。linux
通常须要大数据处理的公司基本上都是大公司,因此学习hadoop技术也是进大公司的捷径!程序员
本课程讲师拥有多年Greenplum和Hadoop实战经验,课程注重实践,原理剖析,实践分享,让学员能快速全面地掌握Greenplum操做和调优,以及Hadoop的搭建与运用实战。sql
课程实战、实用、实际,总共 96 课时,系史上最全最深刻的讲解Greenplum、Hadoop、云计算相关领域的技能课程,北风仅以此课程献给有志于从事大数据行业,追求高薪的有想法的程序员。shell
课程亮点多多:数据库
亮点1、技术混搭编程
Greenplum+Hadoop,让你全面掌握玩转大数据的倚天剑和屠龙刀,让你学到不同的精彩,成为不同的复合型 人才!数据结构
亮点2、高成低也就架构
亮点3、既注重技术基础,手把手传授技术,经过实操实战的讲授过程让学员沉淀技术,打好牢固坚实的基础;另外,也不 忘从行业、架构的高度,帮助你们扩宽视野,游刃有余。并发
亮点4、注重实践:原理剖析,实践分享;让学员能快速全面地掌握Greenplum操做和调优,以及Hadoop的搭建与运用实战。
实战、实用、实际
亮点5、 全面覆盖了Greenplum完整知识体系,及关系型数据库管理和调优思想;
亮点6、课程涵盖Hadoop生态系统中全部经常使用组件;
亮点7、 学完此课程能够得到IT行业高薪职业发展能力。
GREENPLUM适用场景:
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每一个 SMP 节点也能够运行本身的操做系统、数据库等,它的特色主要就是查询速度快,数据装载速度快,批量DML处理快。并且性能能够随着硬件的添加,呈线性增长,拥有很是良好的可扩展性。所以,它主要适用于面向分析的应用。好比构建企业级ODS/EDW,或者数据集市等等。
GREENPLUM的前景:
GREENPLUM 诞生于2003年硅谷,2010/07 EMC收购了GREENPLUM,并把GREENPLUM做为EMC面向分析云的战略核心产品,加以大力发展。该产品不只在国际市场发展很快,在国内市场发展也很快。最著名的案例就是阿里巴巴集团,通过多种产品的精心选型,最终选择GREENPLUM做为它们的数据仓库平台存放数百TB的业务数据去高效支持各类分析应用。正是因为产品发展速度很快,可是在相关人才上存在很大缺口。
Greenplum Hadoop大数据分析平台:
大量的半结构化和非结构化信息没法管理和存储,大数据增加速度惊人,每一年以几何级数速度增加,须要有专业化的解决方案应对大数据挑战。EMC收购了Greenplum以后,推出的针对Hadoop的Greenplum的数据库软件。采用Greenplum HD技术管理半结构化和非结构化信息,总体TCO更低,除了进行有效存储和管理,能够经过MapReduce技术进行并行的分析和挖掘,把大量的数据存储变成有价值的数据资产。
课程内容简介:
本课程分两大部分:
第一部分全面深刻地介绍了Greenplum数据库,包括架构特性、部署、管理、开发和调优等,由浅入深,理论结合实战,让同窗全面完全掌握这把大数据利剑。
第二部分深刻阐述了Hadoop的架构原理,Hadoop总体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等实战运用。另外还介绍了云计算的基础知识和Hadoop在云计算领域的运用,以及剖析了Hadoop在各个互联网巨头商业环境的运用。
本课程适合于有必定java基础知识,对数据库和sql语句有必定了解,熟练使用linux系统的技术人员,特别适合于想换工做或寻求高薪职业的人士。
课程结束时,帮助学员实现以下目标:
一、了解Greenplum和Hadoop的历史及目前发展的现状、以及它们的技术特色,从而把握分布式计算框架及将来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
二、深刻理解Greenplum的技术核心和管理操做,以此为基础,进而掌握MPP架构数据库的使用和调优的思想。
三、全面掌握Hadoop的架构原理和使用场景,并经过贯穿课程的项目进行实战锻炼,从而熟练使用Hadoop进行MapReduce程序开发。
四、深刻理解Hadoop总体技术架构,包括HBase、Hive、Pig、ZooKeeper、Chukwa等,对Hadoop运做机制有清晰全面的认识,能够独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化。
五、理解什么是云计算和Hadoop在云计算领域的运用,以及理解Hadoop在各个互联网巨头商业环境的运用。
第一部分 Greenplum 分布式数据库基础(41课时)
1 Greenplum架构
什么是Greenplum
Greenplum体系结构
Greenplum高可用性架构
2 安装Greenplum
配置环境
安装并初始化GPDB系统
启停数据库
配置GP系统
3 分布式数据库存储
数据是如何存储的
分布策略
4
GBDB查询处理
查询命令的执行
SQL查询处理机制
并行查询计划
5 角色权限及客户端认证管理
客户端认证
管理用户和组
6 客户端接口和程序
pgAdmin III
PSQL
7 定义数据库对象
建立并管理数据库
建立并管理表空间
建立并管理模式
建立并管理表
分区表
数据分布与分区
压缩存储与行列存储
序列、索引与视图
8 管理数据
插入、更新、删除记录
事务管理
空间回收和统计
9 查询数据
定义查询
使用函数和运算符
查询分析
10 工做负载及
资源
管理
GP工做负载管理概述
配置工做负载管理
建立资源队列
分配资源队列
检查资源队列状态
11 装载和卸载数据
GP装载命令概述
装载数据到GP
从GP卸载数据
格式化数据文件
12 备份恢复
串行备份和恢复
并行恢复和恢复
13 性能调优
如何进行调优
常见的性能问题
14 GP系统配置参数
关于GP的Master参数与本地化参数
设置配置参数
配置参数种类
15 开启高可用性
GP高可用概述
开启GP的Mirror
获知Segment什么时候失败
恢复失败的Segment
恢复失败的Master
16 GP MapReduce
MapReduce基础
GP MapReduce编程
MapReduce做业执行和故障诊断
第二部分 Hadoop分布式平台(55课时)
1 Hadoop的起源和体系
Hadoop思想起源:Google
Hadoop子项目家族
Hadoop的架构
2 Hadoop的安装与配置
准备和配置环境
三种运行模式
彻底分布式模式安装
3 HDFS-大数据存储
HDFS概念与体系结构
HDFS的可靠性
HDFS文件操做
HDFS API
4 关于MapReduce
MapReduce编程模型
MapReduce的集群行为
MapReduce任务的优化
MapReduce工做机制
错误处理及做业调度机制
5 MapReduce应用开发
Hadoop Eclipse插件开发
数据筛选程序开发
倒排索引程序开发
6 Hadoop监控与管理
页面监控
hadoop备份
7 HBase数据库
Hbase体系结构
HBase shell
HBase API应用实例
HBase场景应用
HBase模式设计
8 Hive数据仓库
Hive组件与体系架构
Hive安装配置
Hive的服务接口
HiveQL经常使用操做
Hive的优化
Hive UDF编程
Hive综合实战
9 Pig数据分析平台
Pig框架
Pig安装配置
Pig的使用
Pig的数据模型
经常使用Pig Latin操做
Pig UDF编程
Pig数据分析实战
10 ZooKeeper分布式服务框架
ZooKeeper工做原理
ZooKeeper设计目标
ZooKeeper的数据结构和组成
ZooKeeper的安装配置
ZooKeeper命令行工具
ZooKeeper API
ZooKeeper实战:Hadoop任务调度
11 Chukwa集群监控系统
Chukwa的组成
Chukwa架构和设计
Chukwa安装与配置
经常使用Chukwa命令
实现自定义数据处理
12 Hadoop商业应用案例
云计算概念和特征
云计算服务模式和形态
Hadoop在云计算的运用
京东商城
百度
阿里巴巴
腾讯
13 Greenplum Hadoop集群
集成架构的特征
集成架构的优点
配置gphdfs协议使用环境
使用HDFS外部表