Scala中Iterator容许执行一次

时间 2019-12-08

原文原文链接

背景java

　　使用spark执行mapPartitionsWithIndex((index,iterator)=>{....})，在执行体中将iterator进行一次迭代后，再次根据iterator执行迭代，iterator迭代体未执行。express

猜测及验证过程缓存

　　猜想iterator只能执行一次迭代。函数

　　测试例子以下：测试

val rdd1 = sc.makeRDD(1 to 10,2)
val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{
	var result = List[String]()
	var sum = 0
	var count = 0
	while(iterator.hasNext){
		sum += iterator.next()
	}
	while(iterator.hasNext){
		count += 1
	}
	result.::(index + "|" + sum + "|" + count).iterator
}}

执行结果

res0: Array[String] = Array(0|15|0, 1|40|0)

　　经过执行结果能够看出sum执行了求和运算，count没有执行统计数量运算或未正确执行统计数量运算，推测可能的缘由：1. iterator可以重复执行迭代，可是count的算术运算出现问题；2.iterator只能执行一次迭代；spa

　　对缘由1的验证例子：scala

val rdd1 = sc.makeRDD(1 to 10,2)
val rdd2 = rdd1.mapPartitionsWithIndex{(index,iterator)=>{
	var result = List[String]()
	var sum = 0
	var count = 0
	while(iterator.hasNext){
		sum += iterator.next()
                count += 1
	}
	result.::(index + "|" + sum + "|" + count).iterator
}}

执行结果

res0: Array[String] = Array(0|15|5, 1|40|5)

　　若是iterator可以重复执行迭代，可是count的统计数量计算出现问题，那么将sum和count放在同一个迭代体中，执行结果会和在两个迭代体中执行结果一致。可是执行结果倒是可以正常的统计出数量，证实了推测缘由1不成立。blog

　　对缘由2的验证例子：it

　　为了单纯的验证是iterator执行问题，下边的例子去掉了spark相关的函数spark

val iterator = Iterator(1,2,3,4,5,6,7)
var sum = 0
while(iterator.hasNext){
	sum += iterator.next
}
println("sum is " + sum)
val expression = if(iterator.isEmpty) "iterator is empty" else "iterator is not empty"
println(expression)

　　若是iterator只能执行一次迭代的话，expression的结果是【iterator is empty】，真实执行结果以下

sum is 28
iterator is empty
iterator: Iterator[Int] = empty iterator
sum: Int = 28
expression: String = iterator is empty

　　经过执行结果能够看出，expression的结果确实是【iterator is empty】，因此推测缘由2成立。

结论

　　scala中iterator只能执行一次迭代，若是须要屡次执行同一个迭代体，建议调用iterator.toList等方法，将迭代体转化为集合，再执行上述的验证例子就会正常。

扩展

　　1.iterator.min和iterator.max一样是经过迭代得到，因此对于同一个iterator的min和max只能获取一个。

　　2.java中Iterator类同scala的Iterator，只容许进行一次迭代，若是须要进行屡次迭代，须要将iterator转化为集合类

　　3.C#中没有Iterator类，可是有IEnumerator，这个类能够经过IEnumerator.Reset方法来重置，迭代完进行重置就能够再次迭代，而对于java和scala的Iterator没有类似的方法；

补充

　　spark的mapPartitionsWithIndex中iterator尽可能不要使用toList，缘由：toList至关于将迭代数据进行了缓存，容易致使OutOfMemory的异常，iterator是流式的处理，处理完一条记录才会去读取下一条记录而且会丢弃已读的记录，没法重复使用；而iterator.toList会将全部的记录进行缓存，便于重复使用。