为何会产生RDD及其做用

1为何会产生RDD (1) 传统的MapReduce虽然具备自动容错、平衡负载和可拓展性的优势,可是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操做。RDD正是解决这一缺点的抽象方法。 (2) RDD是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,能够分布在集群的节点上,以函数式编操做集合的方式,进行各类并行操做。能够将RDD理解为一个具备容错机制
相关文章
相关标签/搜索