04-spak RDD算子测试实战

Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: • Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作 • Action(执行):触发Spark作业的运行,真正触发
相关文章
相关标签/搜索