Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其余大数据和MapReduce技术相比,Spark有以下优点:node
目标:web
架构及生态:算法
Spark与hadoop:shell
运行流程及特色:数据库
Spark运行特色:多线程
经常使用术语:架构
Spark运行模式:框架
standalone: 独立集群运行模式机器学习
yarn: (参考:http://blog.csdn.net/gamer_gyt/article/details/51833681)分布式
Spark Cluster模式:
Spark Client 和 Spark Cluster的区别:
思考: 咱们在使用Spark提交job时使用的哪一种模式?
RDD运行流程: