spark 经过 RDD 从HDFS文件加载JSON文件到sql表

RDD定义 RDD全称是Resilient Distributed Dataset, 是spark的核心抽象层,经过它能够读取多种文件,这里演示如何读取hdfs文件。全部spark的工做都是发生在RDD上,好比建立新的RDD,转换已有的RDD,对现有的RDD计算求得结果。node RDD在spark中是不可变的(immutable)对象集合,RDD能够被划分红多个分区,存放在不一样的节点。git
相关文章
相关标签/搜索