spark数据分析

首先要运行spark,加载 py4j,执行shell.py  初始化 spark sc(SparkContext) 编写处理rdd的代码 代码分两类 一类叫driver的代码  driver只有一个 一类叫worker的代码  worker有多个 worker的代码有两类算子(操作operate) 变换 transformation 懒执行 map flatMap groupByKey reduc
相关文章
相关标签/搜索