3分钟让你学会大数据:Spark生态原理剖析

  Spark是基于内存计算的通用大规模数据处理框架。 Spark快的原因: Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG进行了高度的优化,具体在于Spark划分了不同的stage和使用了延迟计算技术 弹性数据分布集RDD: Spark将数据保存分布式内存中,对分布式内存的抽象理解,提供了一个高度
相关文章
相关标签/搜索