Spark学习笔记

Hadoop中MapReduce计算框架是基于磁盘的,每次计算结果都会直接存储到磁盘,下一次计算又要从磁盘中读取,于是IO消耗大,迭代计算效率很低,且模型单一,不能适应复杂需求。Spark是一种基于内存的开源计算框架,迭代计算效率很是高。另外,MapReduce的计算是一步一步来的,而Spark将整个计算过程绘制成 DAG(有向无环图),优化了计算路径,这也是Spark计算速度较快的缘由之一。we
相关文章
相关标签/搜索