RDD基础-笔记

RDD编程

基础Spark中的RDD是一个不可变的分布式对象集合。每一个RDD都被分为多个分区,这些分区运行在集群中的不一样节点上。RDD能够包含Python、java、Scala中任意类型的对象,甚至能够包含用户自定义的对象。两种方法建立RDD:
1.     读取一个外部数据集
2.     在驱动器程序里分发驱动器程序中的对象集合(好比list和set)。

RDD 支持的操做:java

1. 转化操做(transformation):一个RDD生成一个新的RDD。
2. 行动操做(action):会对RDD计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部。
3. 虽能够在任什么时候候定义新的RDD,但Spark只会惰性计算这些RDD。他们只有第一次在一个行动操做中用到时,才会真正计算。
4. 默认状况下,Spark的RDD会在你每次对他们进行行动操做时从新计算。(在任什么时候候都能进行重算是咱们为何把RDD描述为“弹性的缘由”)若是想在多个行动操做中重用同一个RDD,可使用RDD.persist()让Spark把这个RDD缓存下来。
每一个Spark程序或shell会话都按以下方式工做。
1. 从外部数据建立出输入RDD。
2. 使用诸如filter()这样的转化操做对RDD进行转化,以定义新的RDD。
3. 告诉Spark对须要被重用的中间结果RDD执行persist()操做。
4. 使用行动操做(例如count()和first()等)来触发一次并行计算,Spark会对计算进行优化后再执行。

errorsRDD = inputRDD.filter(lambad x:"error" in x)
warningsRDD = inputRDD.filter(lamdba x: "warning" in x)
badLinesRDD = errorsRDD.union(warningRDD)shell

cache()与使用默认存储级别调用persist()是同样的。
count()返回计数结果
take() 收集RDD中的一些元素编程

欢迎关注个人公号:彪悍大蓝猫,持续分享大数据、SpringCloud干货~缓存

相关文章
相关标签/搜索