Spark—弹性分布式数据集RDD

1)RDD的起源 Hadoop的数据存储模式为:从物理存储上加载数据、操作数据、然后写入物理存储设备。 缺点1:运行迭代式算法很慢、无法进行交互式的数据挖掘 解决方法:数据存储在内存中 缺点2:实现数据集的容错性(数据恢复)代价高(庞大的数据集网络传输) 解决方法:高度受限的共享内存(思想如下) 2)RDD定义 RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分
相关文章
相关标签/搜索