快速且通用的集群计算平台算法
包含基本功能,包括任务调度、内存管理、容错机制。内部定义了RDDS(弹性分布式数据集),提供了不少APIs来建立和操做这些RDDs。
应用场景:为其它组件提供底层的服务。sql
Spark处理结构化数据的库,像Hive SQL、MySQL同样。
应用场景:企业中用来作报表统计网络
实时数据流处理组件,相似Storm。Spark Streaming提供API来操做实时流数据。
应用场景:企业中用来从Kafka接收数据作实时统计机器学习
一个包含通用机器学习功能的包,Machine learning lib。包含分类、聚类、回归等,还包括模型评估和数据导入。MLlib提供的上面这些方法,都支持集群上的横向扩展。分布式
处理图的库(例如社交网络图),并进行图的并行计算,像Spark Streaming,Spark SQL同样,它继承了RDD API。提供了各类图的操做,和经常使用的图算法,例如RangeRank算法
应用场景:图计算oop
集群管理,Spark自带一个集群管理是单独调度器。常见的集群管理包括:Hadoop YARN、Apache Mesos学习
Spark底层优化,基于Spark底层的组件,也获得相应的优化。紧密集成,节省了各个组件使用时的部署,测试时间。向Spark增长新的组件时,其它组件可当即享用新组件的功能。测试
Hadoop应用场景:离线处理、对及时性要求不高
Spark应用场景:时效性要求高、机器学习等领域大数据