Apache Spark RDD 论文de 简单梳理

时间 2021-07-13

原文原文链接

1、RDD的提出是为了解决在大规模集群中以一种容错的方式进行内存计算这个问题； 2、目前的框架对迭代式算法场景与交互数据挖掘场景的处理性能比较差（主要是对数据复用的不灵活，I/O开销大）； 3、论文核心是提出一种分布式内存抽象：RDDs；是一种可以容错且并行的数据结构，可让用户将计算的中间结果保存在内存中、控制数据集的分区，实现数据存放的优化，还提供了丰富的API； 4、挑战：如何定义一个高效容错

>>阅读原文<<

1. Apache Spark RDD 论文（中文翻译）
2. Apache Spark RDD（Resilient Distributed Datasets）论文
3. Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN
4. Spark RDD 2012 论文笔记
5. spark梳理
6. APACHE SPARK: RDD, DATAFRAME OR DATASET?
7. Spark RDD的简单使用
8. Spark简单原理
9. Apache Spark RDD依赖关系
10. RDD简介，spark-shell，spark-submit提交任务简单示例
更多相关文章...
• CAP理论是什么？ - NoSQL教程
• PHP 文件处理 - PHP教程
• Github 简明教程
• Docker 清理命令