大数据面试题_Spark

时间 2020-06-11

原文原文链接

文章目录 hadoop和spark都是并行计算，那么他们有什么相同和区别简单说一下hadoop和spark的shuffle过程 spark集群运算的模式 RDD中reduceBykey与groupByKey哪一个性能好，为何 cache后面能不能接其余算子,它是否是action操做 ReduceByKey是action算子嘛数据本地性是在哪一个阶段肯定的 RDD的弹性体如今什么方面常规的容错