一天征服Spark!

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、GraphX近乎完美的解决了大数据中Batch Processing、Streaming Processing、Ad-hoc Query等三大核心问题,更为美妙的是在Spark中Spark SQL、Spark Streaming、MLLib、GraphX四大子框架和库之间能够无缝的共享数据和操做,这是当今任何大数据平台都无可匹敌的优点。程序员

       在实际的生产环境中世界上已经出现不少一千个以上节点的Spark集群,以eBay为例,eBay的Spark集群节点已经超过2000个,Yahoo!等公司也在大规模的使用Spark,国内的淘宝、腾讯、百度、网易、京东、华为、大众点评、优酷土豆等也在生产环境下深度使用Spark。2014 Spark Summit上的信息,Spark已经得到世界20家顶级公司的支持,这些公司中包括Intel、IBM等,同时更重要的是包括了最大的四个Hadoop发行商都提供了对很是强有力的支持Spark的支持。数据库

与Spark火爆程度造成鲜明对比的是Spark人才的严重稀缺,这一状况在中国尤为严重,这种人才的稀缺一方面是因为Spark技术在2013、2014年才被大陆这边的IT实际接触,另外一方面是因为匮乏Spark相关的足够出色的中文资料和系统化的培训。为此,咱们在2014 Spark亚太峰会上推出“一天征服Spark!”课程,课程内容涵盖了Spark企业级开发的全部精髓,内容按部就班而深刻浅出,适合全部对大数据感兴趣的朋友学习。编程

 

课程介绍   浏览器

本课程是世界上第一Spark企业级最佳实践课程,课程包含:性能优化

Spark的架构设计;架构

Spark编程模型;框架

Spark内核框架源码剖析;机器学习

Spark的机器学习;分布式

Spark的图计算GraphX;oop

Spark SQL;

Spark实时流处理;

Spark on Yarn;

JobServer;

SparkR

Tachyon

最后以一个商业级别的Spark案例为基础,实战展现商业级别Spark项目的架构设计、实现和优化;

 

培训对象

1, 云计算大数据从业者;

2, Hadoop使用者;

3,  系统架构师、系统分析师、高级程序员、资深开发人员;

4, 牵涉到大数据处理的数据中心运行、规划、设计负责人;

5, 政府机关,金融保险、移动和互联网等大数据来源单位的负责人;

6, 高校、科研院所涉及到大数据与分布式数据处理的项目负责人;

7, 数据仓库管理人员、建模人员,分析和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其余人员;

学员基础

对大数据感兴趣

王家林老师

中国目前惟一的移动互联网和云计算大数据集大成者;

云计算大数据Spark亚太研究院院长和首席专家;

 

Spark亚太研究院院长和首席专家,Spark源码级专家,对Spark潜心研究(2012年1月起)2年多后,在完成了对Spark的13不一样版本的源码的完全研究的同时不断在实际环境中使用Spark的各类特性的基础之上,编写了世界上第一本系统性的Spark书籍并开设了世界上第一个系统性的Spark课程并开设了世界上第一个Spark高端课程(涵盖Spark内核剖析、源码解读、性能优化和商业案例剖析)。Spark源码研究狂热爱好者,醉心于Spark的新型大数据处理模式改造和应用。

Hadoop源码级专家,曾负责某知名公司的类Hadoop框架开发工做,专一于Hadoop一站式解决方案的提供,同时也是云计算分布式大数据处理的最先实践者之一,Hadoop的狂热爱好者,不断的在实践中用Hadoop解决不一样领域的大数据的高效处理和存储,如今正负责Hadoop在搜索引擎中的研发等,著有《云计算分布式大数据Hadoop实战高手之路---从零开始》《云计算分布式大数据Hadoop实战高手之路---高手崛起》《云计算分布式大数据Hadoop。实战高手之路---高手之巅》等;

 

Android架构师、高级工程师、咨询顾问、培训专家;

通晓Android、HTML五、Hadoop,迷恋英语播音和健美;

致力于Android、HTML五、Hadoop的软、硬、云整合的一站式解决方案;

国内最先(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及Android系统测试和应用软件测试的技术专家和技术创业人员之一。

 

HTML5技术领域的最先实践者(2009年)之一,成功为多个机构实现多款自定义HTML5浏览器,参与某知名的HTML5浏览器研发;

超过10本的IT畅销书做者;

     联系邮箱:18610086859@126.com
  联系电话:18610086859

培训内容

 

第一天

第1堂课:Spark的架构设计

1.1 Spark生态系统剖析

1.2 Spark的架构设计剖析

1.3 RDD计算流程解析

1.4 Spark的出色容错机制

 

第2堂课:Spark编程模型

2.1 RDD

2.2 transformation

2.3 action

2.4 lineage

2.5宽依赖与窄依赖

 

第3堂课:深刻Spark内核

3.1 Spark集群

3.2 任务调度

3.3 DAGScheduler

3.4 TaskScheduler

3.5 Task内部揭秘

 

第4堂课:深刻实战RDD

4.1 DAG

4.2 深刻实战各类Scala RDD Function

4.3 Spark Java RDD Function

4.4 RDD的优化问题

 

第5堂课:Spark的机器学习

5.1 LinearRegression

5.2 K-Means

5.3 Collaborative Filtering

 

第6堂课:Spark的图计算GraphX

6.1 Table Operators

6.2 Graph Operators

6.3 GraphX

 

第7堂课:Spark SQL

7.1 Parquet支持

7.2 DSL

7.3 SQL on RDD

 

第8堂课:Spark实时流处理

8.1 DStream

8.2 transformation

8.3 checkpoint

8.4 性能优化

 

第9堂课:Spark on Yarn

9.1 Spark on Yarn的架构原理

9.2 Spark on Yarn的最佳实践

 

第10堂课:JobServer

10.1 JobServer的架构设计

10.2 JobServer提供的接口

10.3 JobServer最佳实践

 

第11堂课:SparkR

11.1 SparkR的原理与实现

11.2 SparkR动手实践

 

第12堂课:Tachyon

12.1 Tachyon原理与架构

12.2 Tachyon动手实践

 

第13堂课:Spark多语言编程

13.1 使用Scala编写Spark程序

13.2使用Python编写Spark程序

13.3使用Java编写Spark程序

 

第14堂课:Spark项目案例实战

14.1 Spark项目的最佳架构模式

14.2 案例的介绍和技术实现

相关文章
相关标签/搜索