Spark Streaming之容错机制以及事务语义

我们知道RDD本身是一个不可变的,可重新计算的、分布式的数据集。每一个RDD都会记住确定好的操作血缘关系。 如果因为某些原因,导致某个worker节点失败,则导致RDD的某个partition数据丢失了,那么那个partition可以通过对原始的容错数据集应用操作血缘,来重新计算。因为HDFS本身是容错文件系统的,所以在HDFS的数据不会丢失,最坏情况无非重新计算而已。   但是对于SparkSt
相关文章
相关标签/搜索