Spark系列--SparkCore(一)RDD简介

时间 2019-12-07

标签 spark 系列 sparkcore rdd 简介栏目 Spark 繁體版

原文原文链接

前言 RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么RDD为何会产生呢？web Hadoop的MapReduce是一种基于数据集的工做模式，面向数据，这种工做模式通常是从存储上加载数据集，而后操做数据集，最后写入物理存储设备。数据更多面临的是一次性处理。算法 MR的这种方式对数据领域两种常见的操做不是很高效。第一种是迭代式的算法。好比机器学习中ALS、凸优化梯度降低等。这些都须

>>阅读原文<<