spark RDD编程

RDD,也就是 弹性分布式数据集 的简称,它是spark处理的分布式元素集合。 对于RDD的操作包括: 创建RDD(从外部数据或者内存中的数据),转化RDD(利用筛选条件等),调用RDD操作求值。 **注意:RDD的操作分为两种:一种是 “转化操作”,这种操作相当于只是定义了RDD,例如从一个RDD筛选出另一个RDD。转化操作的特点就是:返回结果仍然是一个RDD对象,转化操作并不会立刻执行,而是会
相关文章
相关标签/搜索