Spark存储体系

时间 2021-01-17

原文原文链接

Spark存储体系无论是spark的任务提交还是，任务执行，在这过程中始终离不开spark的存储体系。spark为了避免hadoop读写磁盘的IO操作成为性能瓶颈，优先将配置信息、计算结果等数据存入内存，当内存存储不下的时候，可选择性的将计算结果输出到磁盘，为了保证性能，默认都是存储到内存的，这样极大的提高了spark的计算效率。存储体系中核心模块就是bolckmanager。在blockman