Spark--RDD编程模型

弹性分布式数据集(RDD)编程模型 1)        RDD设计目标 RDD用于支持在并行计算时能够高效地利用中间结果,支持更简单的编程模型,同时也具有像MapReduce等并行计算框架的高容错性、能够高效地进行调度及可扩展性。RDD的容错通过记录RDD转换操作的lineage关系来进行,lineage记录了RDD的家族关系,当出现错误的时候,直接通过lineage进行恢复。 2)       
相关文章
相关标签/搜索