Spark编程指南

一、概述 在高层的角度上看,每个Spark应用都有一个驱动程序(driver program)。驱动程序就是运行用户的main主程序并在集群上执行各类并行操做的程序。Spark中的一个主要的抽象概念就是弹性分布数据集(resilient distributed dataset,RDD),RDD是分布在多个节点构成的集群上的元素的集合,并支持并行操做。RDD能够由Hadoop的分布式文件系统(或其余
相关文章
相关标签/搜索