Spark从入门到精通六------RDD的算子

RDD编程API RDD算子 算子是RDD中定义的方法,分为转换(transformantion)和动作(action)。Tranformation算子并不会触发Spark提交作业,直至Action算子才提交任务执行,这是一个延迟计算的设计技巧,可以避免内存过快被中间计算占满,从而提高内存的利用率。 RDD拥有的操作比MR丰富的多,不仅仅包括Map、Reduce操作,还包括filter、sort、
相关文章
相关标签/搜索