SparkStreaming 高可靠分析

背景 为了理解Spark Streaming提供的语义,让我们记住Spark的RDD的基本容错语义。 1. RDD是一个不可改变的,确定性可重新计算的分布式数据集。每个RDD都会记住在容错输入数据集上使用的确定性操作的谱系来创建它。 1. 如果RDD的任何分区由于工作节点故障而丢失,则可以使用操作沿袭从原始容错数据集重新计算该分区。 1. 假设所有RDD转换都是确定性的,最终转换的RDD中的数据总
相关文章
相关标签/搜索