Spark的快难道是以丧失正确性为代价的？

时间 2021-07-11

原文原文链接

是的，Spark很快。但是它不保证它算出的值是对的，哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是：《Spark: Cluster Computing with Working Sets》。当你读它的时候你需要明白：文中代码不保证计算结果是正确的。具体来说，它的Logistic Regression的代码在map阶段用到了accumulator。下面解释为什么这么做是错误的。假设