spark与mapreduce

时间 2021-01-09

原文原文链接

1,spark为什么称为内存计算模型? 第一,不是说spark的数据都加载到内存中进行计算就是内存计算模型了,基于冯诺依曼架构,任何计算不都是加载到内存中计算么? 第二个,数据集太大的话,例如到PB级,目前任何内存也处理不了第三,实则是spark会把一部分数据集的子集加载进内存,然后这其中的一部分中间计算的结果存放在内存,方便下一步的计算,而不是大量中间结果写到HDFS中 2,spark的计算过