如下是百度百科对Spark的介绍:前端
Spark 是一种与 Hadoop 类似的开源集群计算环境,可是二者之间还存在一些不一样之处,这些有用的不一样之处使 Spark 在某些工做负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了可以提供交互式查询外,它还能够优化迭代工做负载。算法
Spark 是在 Scala 语言中实现的,它将 Scala 用做其应用程序框架。与 Hadoop 不一样,Spark 和 Scala 可以紧密集成,其中的 Scala 能够像操做本地集合对象同样轻松地操做分布式数据集。sql
Spark力图整合机器学习(MLib)、图算法(GraphX)、流式计算(Spark Streaming)和数据仓库(Spark SQL)等领域,经过计算引擎Spark,弹性分布式数据集(RDD),架构出一个新的大数据应用平台。架构
Spark生态圈以HDFS、S三、Techyon为底层存储引擎,以Yarn、Mesos和Standlone做为资源调度引擎;使用Spark,能够实现MapReduce应用;基于Spark,Spark SQL能够实现即席查询,Spark Streaming能够处理实时应用,MLib能够实现机器学习算法,GraphX能够实现图计算,SparkR能够实现复杂数学计算。框架
这一段摘选自:点这里机器学习
有不少想要学习Spark的小伙伴都是自学的,可是网上的教程太多太杂太零散,其实并不适合一个Spark小白的人学习,而咱们实验楼恰好又有一些系列的教程,所以整理出来,但愿对Spark学习者有所帮助~分布式
咱们就按照上图的生态圈,从左到右的顺序介绍课程吧;函数
Spark SQL 是一个分布式查询引擎,在这个教程里你能够学习到 Spark SQL 的基础知识和经常使用 API 用法,了解经常使用的数学和统计函数。最后将经过一个分析股票价格与石油价格关系的实例进一步学习如何利用 Spark SQL 分析数据。工具
Spark Streaming 适用于实时处理流式数据。该教程带你学习 Spark Streaming 的工做机制,了解 Streaming 应用的基本结构,以及如何在 Streaming 应用中附加 SQL 查询。oop
附带一张Streaming图:
这个教程你能够了解到 Spark 的 MLlib 库相关知识,掌握 MLlib 的几个基本数据类型,而且能够动手练习如何经过机器学习中的一些算法来推荐电影。
GraphX是Spark用于解决图和并行图计算问题的新组件。GraphX经过RDD的扩展,在其中引入了一个新的图抽象,即顶点和边带有特性的有向多重图,提供了一些基本运算符和优化了的Pregel API,来支持图计算。
GraphX包含了一些用于简化图分析任务的的图计算算法。你能够经过图操做符来直接调用其中的方法。这个教程中讲解这些算法的含义,以及如何实现它们。
SparkR是一个提供轻量级前端的R包,集成了Spark的分布式计算和存储等特性。这个教程将以较为轻松的方式带你学习如何在SparkR中建立和操做DataFrame,如何应用SQL查询和机器学习算法等。
DataFrame让Spark具有了处理大规模结构化数据的能力,在比原有的RDD转化方式更加易用、计算性能更好。这个教程经过一个简单的数据集分析任务,讲解DataFrame的由来、构建方式以及一些经常使用操做。
这个教程经过更加深刻的讲解,使用真实的数据集,并结合实际问题分析过程做为引导,旨在让Spark学习者掌握DataFrame的高级操做技巧,如建立DataFrame的两种方式、UDF等。
Sqoop 是大数据环境中重要的是数据转换工具,这个教程对Sqoop 的安装配置进行了详细的讲解,并列举了Sqoop 在数据迁移过程当中基本操做指令。
以上9个教程比较适合有必定的Spark基础的人学习。
这个教程是一个系统性的教程,总共15个小节,带你亲身体验Spark大数据分析的魅力,课程中能够实践:
Spark,Scala,Python,Spark Streaming,SparkSQL,MLlib,GraphX,IndexedRDD,SparkR,Tachyon,KeystoneML,BlinkDB等技术点,无疑是学习Spark最快的上手教程!
这个教程较为系统,很是适合零基础的人进行学习。
但愿以上10个教程能够帮助想入门Spark的人,入门以后,你天然会知道如何让本身的技术更上一层楼,也天然会有意无心去收集整理Spark学习资源和资料,所以这里就很少介绍了。