spark原理介绍

一、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。所以运行spark的机器应该尽可能的大内存,如96G以上。 二、spark全部操做均基于RDD,操做主要分红2大类:transformation与action。 三、spark提供了交互处理接口,相似于shell的使用。 四、spark能够优化迭代工做负载,由于中间数据均保存于内存中。 五、spark 是在 Scala
相关文章
相关标签/搜索