RDD算子介绍

一、RDD算子简介 spark在运行过程中通过算子对RDD进行计算,算子是RDD中定义的函数,可以对RDD中数据进行转换和操作,如下图 输入:spark程序中数据从外部数据空间输入到spark中的数据块,通过BlockManager进行管理 运行:在spark数据形成RDD后,可以通过变换算子,如filter等对数据进行操作,并将RDD转换为新的RDD,通过Action算子,触发Spark提交作业
相关文章
相关标签/搜索