Spark高级算子aggregate所遇到的坑

时间 2020-05-14

标签 spark 高级算子 aggregate 遇到栏目 Spark 繁體版

原文原文链接

val rdd3 = sc.parallelize(List("12","23","345","4567"),2)字符串

rdd3.aggregate("")((x,y) => math.max(x.length, y.length).toString, (x,y) => x + y)List

两个分区先计算出字符串的最大长度，而后合成字符串并行

结果多是：”24”，也多是：”42”，体现了并行化特色。d3

val rdd4 = sc.parallelize(List("12","23","345",""),2)字符

rdd4.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)d3

结果是：”10”，也多是”01”，math

缘由：注意有个初始值””，其长度0，而后0.toString变成字符串。值"0".toString的长度为0,"0".toString.length的长度为1 。分区可能为（“12”，“23”）和（“345”，“”）；初始值为""，而后初始值和“12”，“34”比较，或者是""和“345”比较，而后和“”比较。并行化

math.min("".length, "12".length ) 的结果是：0 , math.min("0".length, "23".length ) 的结果是1

math.min("".length, "345".length) 的结果是：0 , math.min("0".length, "".length) 的结果是：0

val rdd5 = sc.parallelize(List("12","23","","345"),2)

rdd5.aggregate("")((x,y) => math.min(x.length, y.length).toString, (x,y) => x + y)

结果是：”11”，缘由以下：

math.min("".length, "12".length ) 的结果是：0 , math.min("0".length, "23".length ) 的结果是：1

math.min("".length, "".length) 的结果是：0 , math.min("0".length, "345".length) 的结果是：1

注意：值"0".toString的长度为0,"0".toString.length的长度为1