《Scala机器学习》一一3.2　理解Spark的架构

时间 2021-01-08

原文原文链接

3.2　理解Spark的架构并行化是将工作负载划分为在不同线程或不同节点上执行的子任务。下面介绍Spark实现并行化的原理，以及它如何管理子任务的执行和子任务之间的通信。 3.2.1　任务调度 Spark工作负载的划分由弹性分布式数据集（Resilient Distributed Dataset，RDD）的分区数决定，这是Spark的基本抽象和管道结构。RDD是一种可并行操作的、不可变元素的分区

>>阅读原文<<

《Scala机器学习》一一3.2 理解Spark的架构

《Scala机器学习》一一3.2　理解Spark的架构