一个分片列表 partition list 一个计算函数compute,对每个split进行计算 对其余rdd的依赖列表dependencies list.依赖又份 宽依赖和窄依赖。 partitioner for key-value RDDs.好比说 hash-partitioned rdd(这是可选的,并非全部的add都会有这个特征) 对每个split计算的优先位置 Preferred Location。好比对一个hdfs文件进行计算时,能够获取优先计算的block locations
RDD建立方式 1)从Hadoop文件系统(如HDFS、Hive、HBase)输入建立。 2)从父RDD转换获得新RDD。 3)经过parallelize或makeRDD将单机数据建立为分布式RDD。 4)基于DB(Mysql)、NoSQL(HBase)、S3(SC3)、数据流建立。
每当一个job计算完成,其内部的全部RDD都会被清除,若是在下一个job中有用到其余job中的RDD,会引起该RDD的再次计算,为避免这种状况,咱们可使用persist方法“持久化”一个RDD到内存中。sql
- Spark 中 map函数会对每一条输入进行指定的操做,而后为每一条输入返回一个对象; - 而flatMap函数则是两个操做的集合——正是“先映射后扁平化”: 操做1:同map函数同样:对每一条输入进行指定的操做,而后为每一条输入返回一个对象 操做2:最后将全部对象合并为一个对象