大数据技术学习:弹性分布式数据集RDD

今天千锋老师给大家分享的技术学习是:浅谈弹性分布式数据集RDD。 一、RDD定义 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中基本的数据抽象,它代表一个不可变(数据和元数据)、可分区、里面的元素可并行计算的集合。其特点在于自动容错,位置感知性调度和可伸缩性。 二、RDD的属性 1、一组分片。即数据集的基本组成单位。对于RDD来说,每个分片都会
相关文章
相关标签/搜索