Spark Sreaming基于Spark Core实现了可扩展、高吞吐和容错的实时数据流处理。如今支持的数据源和处理后的结果存储以下图所示。算法
Spark Streaming将流式计算分解成一系列短小的批处理做业。即将Spark Streaming的输入数据按照批处理尺寸(如1秒)分红一段段的数据(Stream),每一段数据都转换成Spark中的RDD,而后将Spark Streaming中对DStream的转换操做变为Spark中对RDD的转换操做,将RDD通过操做变成中间结果保存在内存中,整个流式计算能够根据业务需求对中间结果进行叠加,或者存储到外部设备。以下图所示。机器学习
MLlib是Spark对经常使用的机器学习算法的实现库。学习
Spark SQL最多见的用途之一就是做为一个从Spark平台获取数据的渠道。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持以及其余格式的支持如JSON。Spark SQL支持的数据源以下图所示。spa
Spark GraphX是Spark提供的关于图和图并行计算的API,它集ETL、试探性分析和迭代式的图计算于一体。blog
参考资料:内存
1. Spark技术内幕,张安站扩展