一、下载
预编译 spark-2.2.0-bin-hadoop2.7.tgz 源码编译 略java
二、安装 解压 tar -xzvf spark-2.2.0-bin-hadoop2.7.tgz 移动 mv spark-2.2.0-bin-hadoop2.7 /usr/soft/ 配置环境变量 export SPARK_HOME=/usr/soft/spark-2.2.0-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin 运行 spark-shell spark-shell local[4] spark-shell --master local[4]python
三、hadoop maxtemp wordCountshell
四、spark-shell sc: SparkContextapache
scala> val file = sc.textFile("/root/aa.txt") file: org.apache.spark.rdd.RDD[String] = /root/aa.txt MapPartitionsRDD[1] at textFile at <console>:24 scala> file.count() res0: Long = 11
scala> file.first() res1: String = hello dkfdfmaven
五、Resilient Distributed Dataset 弹性分布式数据集,自动重构取得恢复丢失的分区数据分布式
六、经过编译方式安装spark 下载源码 解压 使用maven编译源码oop
轻量级高速集群计算。 针对大规模的数据处理快速通用的引擎。 比hadoop的MR的内存计算快100倍,磁盘10倍 易于使用,能够使用java,scala,python,R语言spa
提供了80多个高级操做scala