1.spark基本工作原理

时间 2021-01-17

原文原文链接

1.分布式计算客服端的一条执行命令，分布式的散落到集群节点上，每个节点都独立同时执行被分配的任务 2.主要基于内存计算，少数基于磁盘 3.迭代式计算一个节点的计算结果可以，传递给下一个节点进行继续计算。Spark与MapReduce最大的不同在于，迭代式计算模型： @1、MapReduce，分为两个阶段，map和reduce，两个阶段完了，就结束了。所以我们在一个job里能做的处理很有限，只能