spark使用总结

弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象, RDD是只读的,在RDD之上的操做都是并行的 。实际上,RDD只是一个逻辑实体,其中存储了分布式数据集的一些信息,并无包含所谓的“物理数据”,“物理数据”只有在RDD被计算并持久化以后才存在于内存或磁盘中。RDD的重要内部属性有:html 计算RDD分区的函数。 所依赖的直接父RDD列表。 RDD分区及其地址列表。 RDD分区器。 RDD
相关文章
相关标签/搜索