【SPARK】- RDD持久化

因为RDD的惰性求值机制,每次遇到行动操作,都会触发一次从头开始的计算。这对于迭代计算而言,代价是很大的,迭代计算经常需要多次重复使用同一组数据。 因此,可以通过持久化(缓存)机制避免这种重复计算的开销 可以使用persist()方法对一个RDD标记为持久化(标记持久化:出现persist()语句的地方,并不会马上计算生成RDD并把它持久化,而是要等到遇到第一个行动操作触发真正计算以后,才会把计算
相关文章
相关标签/搜索