Resilient Distributed Dataset的一些小回顾

Resilient Distributed Dataset 理解什么是RDD RDD:弹性分布式数据集,RDD其实就是分布式的元素集合,是一个不可变的分布式对象集合 引用自Spark快速大数据分析-P21 惰性计算模式 Spark采用的是惰性计算模式,RDD只有第一次在行动操作中用到的时候,才会真正的计算.Spark可以优化整个 计算过程.默认情况下,Spark的RDD会在你每次对它们进行行动操作
相关文章
相关标签/搜索