例子描述:java
【分组、计算】spa
主要为两部分,将同类的数据分组概括到一块儿,并将分组后的数据进行简单数学计算。
难点在于怎么去理解groupBy和groupByKeyscala
原始数据
2010-05-04 12:50,10,10,10
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-05 13:50,20,20,20
2010-05-06 14:50,30,30,30
2010-05-04 12:50,10,10,10
2010-05-04 11:50,10,10,10code
结果数据
2010-05-05 13:50,40,40,40
2010-05-04 12:50,20,20,20
2010-05-06 14:50,60,60,60
2010-05-04 11:50,10,10,10字符串
代码片断:get
/* 同类合并、计算 */ val source = Source.fromFile("E:test.txt").getLines.toArray val sourceRDD = sc.parallelize(source) /* spark单机读取数据 */ sourceRDD .map { line => val lines = line.split(",") /* 拆分数据 */ (s"${lines(0)}", s"${lines(1)},${lines(2)},${lines(3)}") /* 找出一样的数据为K,须要进行计算的为V,拼成map */ } .groupByKey .map { /* 分组,最重要的就是这,同类的数据分组到一块儿,后面只须要计算V了 */ case (k, v) => var a, b, c = 0 /* 定义几个存数据的变量,恩,这很java,通常scala中不多见到var */ v.foreach { /* 遍历须要计算的V */ x => val r = x.split(",") /* 将V拆分 */ a += r(0).toInt /* 计算 */ b += r(1).toInt c += r(2).toInt } s"$k,$a,$b,$c" /* 拼字符串,返回数据 */ } .foreach(println)