Spark三大核心数据结构(一)——RDD的概念、血缘和持久化

Spark中三大核心数据结构:python RDD、缓存 广播变量(分布式只读变量)、安全 累加器(分布式只写变量)、数据结构   1. RDD的概念和特色: RDD,全称Resilient Distributed Dataset,弹性分布式数据集,做为Spark中最基础的数据抽象,相似Java中对象的概念;分布式 它表明一个不可变(只读)、可分区、里面的元素可并行计算的集合,List、Set、M
相关文章
相关标签/搜索