spark数据分析

时间 2020-12-30

原文原文链接

首先要运行spark，加载 py4j，执行shell.py 初始化 spark sc（SparkContext）编写处理rdd的代码代码分两类一类叫driver的代码 driver只有一个一类叫worker的代码 worker有多个 worker的代码有两类算子（操作operate）变换 transformation 懒执行 map flatMap groupByKey reduc