Spark性能优化研究--cache的用法

Spark性能优化研究–cache的用法 背景 最近在用spark训练模型,数据量达到了50亿量级,遇到了不少性能问题,特此进行了试验总结。咱们使用cache或者persist内存持久化的目的,是为了在之后的数据计算中减小数据读取的时间,当要处理的数据量过大时,好比50亿级,经常会遇到内存不够,或者cache所需时间过长的问题。cache会破坏spark在作DAG优化执行计划的时候的数据本地性(D
相关文章
相关标签/搜索