RDD持久化(缓存)

Spark RDD 是惰性求值的,而有时我们希望能多次使用同一个 RDD。如果简单地对 RDD 调用行动操作,Spark 每次都会重算 RDD 以及它的所有依赖。这在迭代算法中消耗格外大,因为迭代算法常常会多次使用同一组数据。 比如下面就是先对 RDD 作一次计数、再把该 RDD 输出的一个小例子。 val result = input.map(x => x*x) println(result.c
相关文章
相关标签/搜索