spark编程指南

spark编程指南 概述 每个spark应用程序包含一个驱动程序,驱动程序用来运行用户的main函数并在集群上执行若干并行操做spark最主要的抽象叫作离散分布式数据集RDD。它是跨集群节点分区的数据集,而且能够被并行操做。RDD能够由hadoop文件,或者在驱动程序中的scala集合建立或者由以前的RDD执行transformations操做转化获得。用户可能须要spark RDD 被持久化到内
相关文章
相关标签/搜索