1. spark 是什么?html
>Apache Spark 是一个相似hadoop的开源高速集群运算环境 与后者不一样的是,spark更快(官方的说法是快近100倍)。提供高层JAVA,Scala,PythonI ,R API接口.并且提tools:Spark SQL for SQL 处理结构化数据, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.java
2. spark streaming sql
Spark Streaming: 构建在Spark上处理Stream数据的框架,主要的原理是将Stream数据分红小的时间片段(几秒),以相似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低延迟运行引擎(100ms+),尽管比不上专门的流式数据处理软件。也可以用于实时计算,还有一方面相比基于Record的其余处理框架(如Storm)。一部分窄依赖的RDD数据集可以从源数据又一次计算达到容错处理目的。docker
3. build spark: shell
1) 安装 scala apache
scala 语言很是简洁,属于函数式语言。其简洁度使人惊讶(代码量仅仅有java的十分之中的一个)值得学习。vim
http://www.scala-lang.org/download/框架
下载,解压 :tar -zxvf filename loactionide
改动环境变量:vim /etc/profile 在PATH后增长scala解压后文件位置。函数
> export SCALA_HOME = $/opt/scala/scala-2.11.7
> export SPARK_HOME=$opt/spark/spark-1.4.1
> export PATH=$SCALA_HOME/bin:$PATH:$SPARK_HOME/bin
update( very important or you may failed to change the path) > source /etc/profile
检測: scala -version
2)安装 spark streaming
下载这个版本号: spark-1.4.1-bin-hadoop2.6.tgz (必定不要选source code 需要本身编译)
http://spark.apache.org/downloads.html
解压: tar -zxvf filemname location (文件名称太长善用 tab键)
3)几个命令
在Spark执行以前,首先需要让Spark集群启动,假设需要用到hadoop的HDFS的话,也需要把HDFS启动起来。