史上最全的spark面试题——持续更新中

1.spark中的RDD是什么,有哪些特性?html 答:RDD(Resilient Distributed Dataset)叫作分布式数据集,是spark中最基本的数据抽象,它表明一个不可变,可分区,里面的元素能够并行计算的集合java Dataset:就是一个集合,用于存放数据的node Destributed:分布式,能够并行在集群计算python Resilient:表示弹性的,弹性表示m
相关文章
相关标签/搜索