Spark简介 --大数据

时间 2019-12-11

标签 spark 简介数据栏目 Spark 繁體版

原文原文链接

快速且通用的集群计算平台算法

包含基本功能，包括任务调度、内存管理、容错机制。内部定义了RDDS（弹性分布式数据集），提供了不少APIs来建立和操做这些RDDs。
应用场景：为其它组件提供底层的服务。sql

Spark处理结构化数据的库，像Hive SQL、MySQL同样。
应用场景：企业中用来作报表统计网络

实时数据流处理组件，相似Storm。Spark Streaming提供API来操做实时流数据。
应用场景：企业中用来从Kafka接收数据作实时统计机器学习

一个包含通用机器学习功能的包，Machine learning lib。包含分类、聚类、回归等，还包括模型评估和数据导入。MLlib提供的上面这些方法，都支持集群上的横向扩展。分布式

处理图的库（例如社交网络图），并进行图的并行计算，像Spark Streaming,Spark SQL同样，它继承了RDD API。提供了各类图的操做，和经常使用的图算法，例如RangeRank算法
应用场景：图计算oop

集群管理，Spark自带一个集群管理是单独调度器。常见的集群管理包括：Hadoop YARN、Apache Mesos学习

Spark底层优化，基于Spark底层的组件，也获得相应的优化。紧密集成，节省了各个组件使用时的部署，测试时间。向Spark增长新的组件时，其它组件可当即享用新组件的功能。测试

Hadoop应用场景：离线处理、对及时性要求不高
Spark应用场景：时效性要求高、机器学习等领域大数据