前言html
其实啊,不管你是初学者仍是具有了有必定spark编程经验,都须要对spark源码足够重视起来。python
本人,肺腑之己见,想要成为大数据的大牛和顶尖专家,多结合源码和操练编程。git
准备工做github
一、scala 2.10.4(本地的安装)sql
二、Jdk1.7+ 或 jdk1.8+ (本地的安装)docker
三、IntelliJ IDEAapache
另外,最后仍是建议你们开始先使用 pre-built 的 Spark,对 Spark 的运行、使用方法有所了解,编写了一些 Spark 应用程序后再展开源代码的阅读,并尝试修改源码,进行手动编译。 编程
整体流程windows
一、从 Github 导入 Spark 工程微信
打开IntelliJ IDEA 后,在菜单栏中选择 VCS→Check out from Version Control→Git,以后在 Git Repository URL 中填入 Spark 项目的地址,并指定好本地路径,以下图所示。
https://github.com/apache/spark.git
或者,咱们能够直接先下载好,
好比我这里,已经下载好了
解压,
提早,先准备好
对于spark源码的目录结构
一、编译相关 : sbt 、assembly、project
二、spark核心 :core
三、Spark Lib : streaming 、 sql 、graphx 、mllib
四、运行脚本和配置 : bin 、sbin 、conf
五、虚拟化 : ec2 、docker 、dev
六、式例 : examples 、data
七、部署相关: yarn
八、python支持 : python
九、repl : repl
十、 3pp : externals
如今,我开始,进入spark源码导入工做。
先来关闭,已有的工程。
File -> Close Project
获得,以下
选择,Import Project
这里,为了往后的spark源码阅读环境的方便和开发
安装以后的几个经常使用设置:
一、界面字体大小的设置
可见,界面字体的效果
二、代码字体的设置
三、因咱们日常,用习惯了eclipse,快捷键,设置为咱们日常,eclipse的风格。
完成
简单,带领,如何巧看spark源码?
这里,为了不一个不利的阅读,
放到D盘的根目录下,
设置行号
其余的源码,首先,Ctrl + Shift + R,而后,自行去阅读。
建议,在理解概念,真的,能够拿源码来帮助理解!
总结
因此啊,源码 + 官网 ,是黄金组合。
更新博客(2017年),见
同时,你们能够关注个人我的博客:
http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/
人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和我的学习工做的精华干货知识,一切来于互联网,反馈回互联网。
目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及日常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,天天必须有收获
以及对应本平台的QQ群:161156071(大数据躺过的坑)