一块儿学spark(12)-- 关于RDD和DataFrame 的缓存

(1)Rdd持久化python    当调用RDD的persist()或者cache()方法时,这个RDD的分区会被存储到缓存区中,Spark会根据spark.storage.memoryFraction 限制用来缓存的内存占整个JVM堆空间的比例大小,若是超出限制,旧的分区数据会被移出内存。缓存    Spark默认的 cache() 操做会以MEMORY_ONLY 的存储等级持久化数据,意味着
相关文章
相关标签/搜索