Spark—4（Spark核心组件）

时间 2019-11-05

标签 spark 核心组件栏目 Spark 繁體版

原文原文链接

一、Spark Streaming

Spark Sreaming基于Spark Core实现了可扩展、高吞吐和容错的实时数据流处理。如今支持的数据源和处理后的结果存储以下图所示。算法

Spark Streaming将流式计算分解成一系列短小的批处理做业。即将Spark Streaming的输入数据按照批处理尺寸（如1秒）分红一段段的数据（Stream），每一段数据都转换成Spark中的RDD，而后将Spark Streaming中对DStream的转换操做变为Spark中对RDD的转换操做，将RDD通过操做变成中间结果保存在内存中，整个流式计算能够根据业务需求对中间结果进行叠加，或者存储到外部设备。以下图所示。机器学习

二、MLlib

MLlib是Spark对经常使用的机器学习算法的实现库。学习

三、Spark SQL

Spark SQL最多见的用途之一就是做为一个从Spark平台获取数据的渠道。支持从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持以及其余格式的支持如JSON。Spark SQL支持的数据源以下图所示。spa

四、GraphX

Spark GraphX是Spark提供的关于图和图并行计算的API，它集ETL、试探性分析和迭代式的图计算于一体。blog

五、Spark的总体代码结构

参考资料：内存

1. Spark技术内幕，张安站扩展