这里只使用Spark的Python操做和接口,其余语言应为不熟悉,因此先不写在这里。python
能够直接从官方网站下载 pre-build 版本,能够直接在电脑上运行,离线安装也是能够的,好比说针对Python 2.7的link。shell
解压:apache
tar zxvf spark-2.1.0-bin-hadoop2.7.tgz
解压以后,其目录为以下:小程序
$ ls LICENSE README.md conf jars sbin NOTICE RELEASE data licenses yarn R bin examples python
其中的几个目录能够先认识一下:bash
在Spark的目录下,执行:分布式
./bin/pyspark
便可载入Python Shell,成功以后的界面以下:函数
到这就表明Spark完成了部署,可使用 Control + D 退出 SparkShell。oop
在解释器中执行下面的一段程序试试:学习
>>> lines = sc.textFile("README.md") >>> pythonLines = lines.filter(lambda line: "Python" in line)
上面两行代码分别为:网站
sc
,从README.md文件建立一个 文本文件类型的 RDD
。下面解释 RDD 和 SparkContext 这两个名词:
sc
。而后能够用执行 .first()
和 .count()
两个方法来查看: