浅谈Spark内部运行机制

Spark中最重要的机制有那些? 1.RDD,2.Spark调度机制,3Shuffle过程 什么是RDD? 可以这么说,你懂了RDD,基本上就可以对Hadoop和Spark的一半给吃透了,那么到底是RDD RDD(弹性分布式数据集)首先体现数据集,RDD是对原始数据的封装,该种数据结构内部可以对数据进行逻辑分区,其次分布式体现是并行计算以及需要解决容错问题,也就是根据依赖,找到第一层RDD,最后根
相关文章
相关标签/搜索