[spark 面试] cache/persist/checkpoint

          1. cache与persist cache 能够让重复数据在同一个 application 中的 jobs 间共享。RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY。 下面简单引入一下cache的机制: 哪些 RDD 需要 cache? 会被重复使用的(但不能太大)。 用户怎么设定哪些 RDD 要 cache? 因为用户只与 dr
相关文章
相关标签/搜索