一块儿学spark（12）-- 关于RDD和DataFrame 的缓存

时间 2019-12-06

标签一块儿 spark 关于 rdd dataframe 缓存栏目 Spark 繁體版

原文原文链接

（1）Rdd持久化python 当调用RDD的persist()或者cache()方法时，这个RDD的分区会被存储到缓存区中，Spark会根据spark.storage.memoryFraction 限制用来缓存的内存占整个JVM堆空间的比例大小，若是超出限制，旧的分区数据会被移出内存。缓存 Spark默认的 cache() 操做会以MEMORY_ONLY 的存储等级持久化数据，意味着

>>阅读原文<<