spark-2-核心

• Spark基于弹性分布式数据集(RDD)模型,具有良好的通用性、容错性与并行处理数据的能力 • RDD(Resilient Distributed Dataset ):弹性分布式数据集(相当于集合),它的本质是数据集的描述(只读的、可分区的分布式数据集),而不是数据集本身 • RDD的关键特征: – RDD使用户能够显式将计算结果保存在内存中,控制数据的划分,并使用更丰富的操作集合来处理 –
相关文章
相关标签/搜索