1)Spark core:是其它组件的基础,spark的内核,主要包含:有向循环图、RDD、Lingage、Cache、broadcast等,并封装了底层通信框架,是Spark的基础。sql
2)SparkStreaming是一个对实时数据流进行高通量、容错处理的流式处理系统,能够对多种数据源(如Kafka、Flume、Twitter、Zero和TCP 套接字)进行相似Map、Reduce和Join等复杂操做,将流式计算分解成一系列短小的批处理做业。框架
3)Spark sql:Shark是SparkSQL的前身,Spark SQL的一个重要特色是其可以统一处理关系表和RDD,使得开发人员能够轻松地使用SQL命令进行外部查询,同时进行更复杂的数据分析。机器学习
4)BlinkDB :是一个用于在海量数据上运行交互式 SQL 查询的大规模并行查询引擎,它容许用户经过权衡数据精度来提高查询响应时间,其数据的精度被控制在容许的偏差范围内。学习
5)MLBase是Spark生态圈的一部分专一于机器学习,让机器学习的门槛更低,让一些可能并不了解机器学习的用户也能方便地使用MLbase。MLBase分为四部分:MLlib、MLI、ML Optimizer和MLRuntime。spa
6)GraphX是Spark中用于图和图并行计算开发