这一两年Spark技术很火,本身也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给你们。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理通常是先介绍原理,随后是实战例子,因为面向的是入门读者,在实战中多截图,还请谅解。为了你们实验方便,在这里把实验相关的测试数据和安装包放在百度盘提供 连接: https://pan.baidu.com/s/1mm9X95PstczvseZw0xj8Jw 密码: t5kwhtml
本系列博客在博客园和CSDN首发,地址为:编程
博客园 http://www.cnblogs.com/shishanyuan架构
CSDN http://blog.csdn.net/yirenboy机器学习
如下为该系列文章列表:分布式
1.Spark及其生态圈简介 下载oop
2.Spark编译与部署(中)--Hadoop编译安装 下载测试
2.Spark编译与部署(下)--Spark编译安装 下载spa
3.Spark编程模型(上)--编程模型及SparkShell实战 下载.net
7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 下载
7.Spark Streaming(下)--实时流计算Spark Streaming实战 下载
8.Spark MLlib(上)--机器学习及SparkMLlib简介 下载