10.2 spark算子介绍

算子: 转换算子:RDD进行内部转化,不消耗资源 行动算子:执行job,消耗资源,要看到执行结果必须要行动算子 控制算子   转换算子 map 遍历的单位是每一条记录 , 返回值是一条记录 flatMap 遍历的单位也是每一条记录,但是返回值可以是多条 filter 过滤算子 true为保留 false 过滤掉 mapPartitions 遍历的单位是每一个分区,每一个分区的数据会一次性加载一个集
相关文章
相关标签/搜索