scalca建立rdd

进行Spark核心编程时,首先要作的第一件事,就是建立一个初始的RDD。该RDD中,一般就表明和包含了Spark应用程序的输入源数据。而后在建立了初始的RDD以后,才能够经过Spark Core提供的transformation算子,对该RDD进行转换,来获取其余的RDD。 Spark Core提供了三种建立RDD的方式,包括:使用程序中的集合建立RDD;使用本地文件建立RDD;使用HDFS文件建立RDD。编程

object CreateRDD { def main(args: Array[String]): Unit = { val conf=new SparkConf().setMaster("local[2]").setAppName("CreateRDD") val sc=new SparkContext(conf) val arrays=Array(1,2,3,4,5,6,7,8,9,10) val rddData=sc.parallelize(arrays,2) //使用集合建立RDD,序列化,默认根据集群状况设置rdd的partition,也能够手动传入
    val sum=rddData.reduce(_+_) println(sum) //val rdd = sc.textFile("data.txt") //使用本地文件建立RDD //val wordCount = rdd.map(line => line.length).reduce(_ + _) //map是transformation操做(transformation都是lazy执行),reduce是action,才执行操做 //val lines = sc.textFile("hdfs://spark1:9000/spark.txt", 1) //使用hdfs文件建立RDD //val count = lines.map { line => line.length() }.reduce(_ + _)
 } }
相关文章
相关标签/搜索