Spark简介 --大数据

1、Spark是什么?

快速且通用的集群计算平台算法

2、Spark的特色:

  1. 快速:Spark扩充流行的Mapreduce计算模型,是基于内存的计算
  2. 通用:Spark的设计容纳了其它分布式系统拥有的功能,批处理、迭代式计算、交互查询和流处理等,下降了维护成本
  3. 高度开放:Spark提供Python、Java、Scala、SQL的API和丰富的内置库,Spark和其它的大数据工做整合得很好,包括hadoop、Kafka

3、Spark的组件

一、Spark Core

包含基本功能,包括任务调度、内存管理、容错机制。内部定义了RDDS(弹性分布式数据集),提供了不少APIs来建立和操做这些RDDs。
应用场景:为其它组件提供底层的服务。sql

二、Spark SQL

Spark处理结构化数据的库,像Hive SQL、MySQL同样。
应用场景:企业中用来作报表统计网络

三、Spark Streaming

实时数据流处理组件,相似Storm。Spark Streaming提供API来操做实时流数据。
应用场景:企业中用来从Kafka接收数据作实时统计机器学习

四、MLlib

一个包含通用机器学习功能的包,Machine learning lib。包含分类、聚类、回归等,还包括模型评估和数据导入。MLlib提供的上面这些方法,都支持集群上的横向扩展。分布式

五、Graphx

处理图的库(例如社交网络图),并进行图的并行计算,像Spark Streaming,Spark SQL同样,它继承了RDD API。提供了各类图的操做,和经常使用的图算法,例如RangeRank算法
应用场景:图计算oop

六、Cluster Manager

集群管理,Spark自带一个集群管理是单独调度器。常见的集群管理包括:Hadoop YARN、Apache Mesos学习

4、紧密集成的优势

Spark底层优化,基于Spark底层的组件,也获得相应的优化。紧密集成,节省了各个组件使用时的部署,测试时间。向Spark增长新的组件时,其它组件可当即享用新组件的功能。测试

5、Spark和Hadoop比较

Hadoop应用场景:离线处理、对及时性要求不高
Spark应用场景:时效性要求高、机器学习等领域大数据

相关文章
相关标签/搜索