《Spark技术内幕》第八章Storage模块详解

Storage模块详解 Storage模块负责管理Spark计算过程中产生的数据,包括基于Disk的和基于Memory的。 用户在实际编程中,面对的是RDD,可以将RDD的数据通过cache持久化,持久化的动作都是由Storage模块完成的,包括Shuffle过程中的数据,也都是由Storage模块管理的。 可以说RDD实现用户的逻辑,而Storage管理用户的数据。在Driver端和Execut
相关文章
相关标签/搜索