Spark(1)——spark基本原理与启动

spark在离线计算方面可以类比于mapreduce,它完美的运用内存来进行计算,效率比mapreduce要高得多。 RDD(弹性分布式数据集) spark中操作的数据最终都会转成对RDD的操作,RDD会在多个节点上进行保存,RDD也像HDFS那样,会切分成几个partition,就像hdfs里的数据被切分成block那样。 ps:RDD是不可变的,如果要对RDD进行修改,RDD会保存出一个新的R
相关文章
相关标签/搜索