Spark应用开发(上)

Spark架构:
关键名词:
master
worker
executor
task
driver
Spark集群启动以后,是主从式架构(master--worker),95%的大数据架构都是主从式
hadoop-yarn:
Yarn:
主节点:resourcemanager管理整个集群的资源
从节点:nodemanager 管理每一个服务器的资源
sparkcontext就是sparkcore的程序入口
flatmap = map + flattennode

Spark集群:
打包Spark程序:
Spark任务提交:
RDD的建立:Sparkcore:
transformation和action原理:
transformation:map flatmap 至关因而建立新的RDD
action:savaastextfile,count
全部transformation操做具备lazy特性,在遇到action操做以前都不会运行的服务器

Spark等到action出现,再执行transformation实际上是Spark自身在作一个最佳的调优,用最高效的顺序来执行全部的transformation(优化)架构

相关文章
相关标签/搜索