Spark基本架构及运行原理

Spark软件栈 Spark Core: 包含Spark的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。 Spark SQL: Spark处理结构化数据的库,就像Hive SQL,Mysql一样,企业中用来做报表统计。 Spark Streaming: 实时数据流处理组件,类似Storm。
相关文章
相关标签/搜索