图解spark RDD缓存管理cacheManager和磁盘管理DiskStore/DiskBlockManager

RDD缓存管理cacheManager 当需要计算RDD时,需要避免重复计算的RDD。 什么时候RDD可能会被重复计算?一般是宽依赖RDD, 即RDD的下游可能有多个, 但是另一个下游的拉去可能较慢, 那么此时需要做缓存。 cacheManager只是对RDD的管理, 真正的缓存以及获取是通过blockManager,然后根据内存情况选择存内存还是存磁盘。 RDD不是一定会做缓存,这取决于存储级别
相关文章
相关标签/搜索