3分钟让你学会大数据：Spark生态原理剖析

时间 2021-07-12

原文原文链接

Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因： Spark基于内存，尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG进行了高度的优化，具体在于Spark划分了不同的stage和使用了延迟计算技术弹性数据分布集RDD： Spark将数据保存分布式内存中，对分布式内存的抽象理解，提供了一个高度

>>阅读原文<<