Spark：超越Hadoop MapReduce

时间 2021-01-12

标签 hadoop spark 栏目 Spark 繁體版

原文原文链接

引言：和 Hadoop 一样，Spark 提供了一个 Map/Reduce API（分布式计算）和分布式存储。二者主要的不同点是，Spark 在集群的内存中保存数据，而 Hadoop 在集群的磁盘中存储数据。本文选自《SparkGraphX实战》。　　大数据对一些数据科学团队来说是主要的挑战，因为在要求的可扩展性方面单机没有能力和容量来运行大规模数据处理。此外，即使专为大数据设计的系统，

>>阅读原文<<