Spark技术的总结以及同storm，Flink技术的对比

时间 2020-06-14

标签 spark 技术总结以及 storm flink 对比栏目 Spark 繁體版

原文原文链接

##spark总结 ###1.Spark的特色：java

高可伸缩性
高容错
基于内存计算
支持多种语言：java，scala，python，R
高质量的算法，比MapReduce快100倍
多种调度引擎：能够运行于YARN，Mesos，standalone 等。

###2.spark的提供的功能以及应用场景python

spark功能模块	应用场景
RDD	离线数据处理
Spark SQL, DataFrames and Datasets	结构化的关系数据运算
Structured Streaming	结构化流：统一批处理与流处理计算的工具
Spark Streaming	流数据实时计算
Machine Learning (MLlib)	机器学习
GraphX	图数据计算
SparkR	R on Spark

###3.spark重大版本更新算法

spark2.3.0的重大更新：sql

一、支持第四种调度引擎 Kubernetes clusters。
二、Structured Streaming 引入了低延迟的连续处理（continuous processing）；

spark2.0.0的重大更新：编程

一、SparkSession：这是一个新入口，取代了本来的SQLContext与HiveContext
二、基于DataFrame的机器学习API将做为主ML API出现；基于RDD的API进入维护模式。
三、spark 本身的标准SQL（Ansi-sql sql-2003标准）解析引擎，同时兼容hive-SQL. 
四、数据框（DataFrame）/Dataset （数据集）API的统一。

spark1.6.X的重大更新：架构

1. 新增Dataset API
2. 使用堆外内存执行SQL，避免GC形成的瓶颈
3. 支持对非标准JSON文件的读操做
4. 支持基于文件的SQL查询。

###4. spark-streaming，storm，Flink对比app

技术特性上的对比：

对比项	spark-streaming	storm	flink
流模式	微批处理	行处理 / 或者微批处理	行处理/或者微批处理
可靠性	Exactly-Once	At-Least-Once	Exactly-Once
延迟	秒级	毫秒级	毫秒级
吞吐量	比较高	很是高	很是高
容错机制	Recourd ACKs机制	基于RDD的 CheckPoint	CheckPoint
是否有状态	是	否	是
支持SQL	支持	不支持	支持
与Hadoop兼容性	支持HDFS、HBase等数据源	不支持	支持HDFS、HBase等数据源

storm 的任务编程组件是： Topology任务，由spout，bolt组成的DAG 拓扑结构。 spark-streaming任务变成组件：DStream 数据流的个各类处理方法。运维

spark-streaming 和 Flink 是将Flink Job 转换成 JobGraph -> ExecutionGraph.机器学习

平台架构上的对比：

对比项	spark-streaming	storm	flink
系统角色	driver，executor	Numbius，supervisor，worker	Client,JobManager，Taskmanager
应用名称	application	Topology	application
组件接口	DataStream	DStream	spout，bolt
部署方式	YARN，standalone	numbius-supervisor	YARN， standalone

结论：工具

因为spark 和Flink均可以基于YARN的方式部署，共用了hadoop生态的HDFS，YARN组件，下降了基础平台的运维工做量。同时Flink的毫秒级延迟实时计算能力和spark秒级延迟实时计算能力是一种相互补充。Flink和spark造成互补且竞争关系。
Flink 在 Mlib，SQL 支持方面都有支持，功能方面和spark竞争关系，都是朝着生态方向发展。不过均可以基于相同的底层平台，你们切换和相互替换的成本都不高。
虽然storm的也能够基于yarn部署，但这不是其主流使用场景，因此在大数据基础平台方案中Flink能够最终替换的storm平台。

Spark技术的总结 以及同storm，Flink技术的对比

Spark技术的总结以及同storm，Flink技术的对比