查看spark RDD 各分区内容

时间 2019-12-04

标签查看 spark rdd 分区内容栏目 Spark 繁體版

原文原文链接

mapPartitionsWithIndex
def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]函数

函数做用同mapPartitions，不过提供了分区的索引（代码中partid）。

.net

val rdd = sc.parallelize(1 to 8,3)
rdd.mapPartitionsWithIndex{
(partid,iter)=>{
var part_map = scala.collection.mutable.Map[String,List[Int]]()
var part_name = "part_" + partid
part_map(part_name) = List[Int]()
while(iter.hasNext){
part_map(part_name) :+= iter.next()//:+= 列表尾部追加元素
}
part_map.iterator
}
}.collectscala

OUTPUT blog

res0: Array[(String, List[Int])] = Array((part_0,List(1, 2)), (part_1,List(3, 4, 5)), (part_2,List(6, 7, 8)))索引

转自：http://www.javashuo.com/article/p-ologxrxt-eu.htmlci