Spark-SQL 面试准备 1

Spark Knowledge NO.1 1. spark中的RDD是什么,有哪些特性? 答:RDD(Resilient Distributed Dataset)叫做分布式数据集,是spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合 Resilient:表示弹性的,弹性表示 Dataset:就是一个集合,用于存放数据的 Destributed:分布式,可以并行在集
相关文章
相关标签/搜索