在spark中map函数和flatMap函数是两个比较经常使用的函数。其中
map:对集合中每一个元素进行操做。
flatMap:对集合中每一个元素进行操做而后再扁平化。
理解扁平化能够举个简单例子php
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.flatmap(x=>(x._1+x._2)).foreach(println)
输出结果为markdown
A
1 B 2 C 3
若是用map函数
val arr=sc.parallelize(Array(("A",1),("B",2),("C",3))) arr.map(x=>(x._1+x._2)).foreach(println)
输出结果post
A1 B2 C3
因此flatMap扁平话意思大概就是先用了一次map以后对所有数据再一次map。学习
这个场景是我曾经在写代码过程当中遇到的难题,在字符串中如何统计相邻字符对出现的次数。意思就是若是有A;B;C;D;B;C字符串,则(A,B),(C,D),(D,B)相邻字符对出现一次,(B,C)出现两次。
若有数据spa
A;B;C;D;B;D;C B;D;A;E;D;C A;B
统计相邻字符对出现次数代码以下.net
data.map(_.split(";")).flatMap(x=>{ for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1) }).reduceByKey(_+_).foreach(println)
输出结果为code
(A,E,1) (E,D,1) (D,A,1) (C,D,1) (B,C,1) (B,D,2) (D,C,2) (D,B,1) (A,B,2)
此例子就是充分运用了flatMap的扁平化功能。blog