Spark的快难道是以丧失正确性为代价的?

是的,Spark很快。但是它不保证它算出的值是对的,哪怕你要做的只是简单的整数累加。 Spark最著名的一篇论文是:《Spark: Cluster Computing with Working Sets》。当你读它的时候你需要明白:文中代码不保证计算结果是正确的。具体来说,它的Logistic Regression的代码在map阶段用到了accumulator。下面解释为什么这么做是错误的。 假设
相关文章
相关标签/搜索