Spark 基础 —— RDD(建立 RDD)的两种方式

弹性分布式数据集(Resilient Distributed Dataset),简称 RDD,RDD 是 Spark 所提供的最基本的数据抽象,表明分布在集群中多台机器上的对象集合。Spark 有两种方法能够建立 RDD:web 用 SparkContext 基于外部数据源建立 RDD,外部数据源包括 HDFS 上的文件 经过 JDBC 访问的数据库表 Spark shell 建立的本地对象集合
相关文章
相关标签/搜索