Spark RDD中两种算子之一:常见Transformation算子小结

RDD:弹性分布式数据集,是一种特殊集合,支持多来源,有容错机制,可以被缓存,支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种算子: 1.Transformation(转换):属于延迟Lazy计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住数据集的逻辑操作; 2.Action(执行):触发Spark作业运行,真正触发转换算子的计算; RDD中算子的运行过程: 输入
相关文章
相关标签/搜索