RDD基础-笔记

时间 2019-11-10

标签 rdd 基础笔记栏目 Spark 繁體版

原文原文链接

RDD编程

基础Spark中的RDD是一个不可变的分布式对象集合。每一个RDD都被分为多个分区，这些分区运行在集群中的不一样节点上。RDD能够包含Python、java、Scala中任意类型的对象，甚至能够包含用户自定义的对象。两种方法建立RDD：

1.     读取一个外部数据集
2.     在驱动器程序里分发驱动器程序中的对象集合（好比list和set）。

RDD 支持的操做：java

1. 转化操做（transformation）：一个RDD生成一个新的RDD。
2. 行动操做（action）：会对RDD计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部。
3. 虽能够在任什么时候候定义新的RDD，但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操做中用到时，才会真正计算。
4. 默认状况下，Spark的RDD会在你每次对他们进行行动操做时从新计算。（在任什么时候候都能进行重算是咱们为何把RDD描述为“弹性的缘由”）若是想在多个行动操做中重用同一个RDD，可使用RDD.persist()让Spark把这个RDD缓存下来。

每一个Spark程序或shell会话都按以下方式工做。

1. 从外部数据建立出输入RDD。
2. 使用诸如filter()这样的转化操做对RDD进行转化，以定义新的RDD。
3. 告诉Spark对须要被重用的中间结果RDD执行persist()操做。
4. 使用行动操做（例如count()和first()等）来触发一次并行计算，Spark会对计算进行优化后再执行。

errorsRDD = inputRDD.filter(lambad x:"error" in x)
warningsRDD = inputRDD.filter(lamdba x: "warning" in x)
badLinesRDD = errorsRDD.union(warningRDD)shell

cache()与使用默认存储级别调用persist()是同样的。
count()返回计数结果
take() 收集RDD中的一些元素编程

欢迎关注个人公号：彪悍大蓝猫，持续分享大数据、SpringCloud干货~缓存