【算法工程师】spark面试问题总结

spark中的RDD是什么,有哪些特性? RDD(Resilient Distributed Dataset)叫作弹性分布式数据集,是spark中最基本的数据抽象,它表明一个不可变,可分区,里面的元素能够并行计算的集合。node RDD中的数据能够存储在内存或者磁盘中; RDD中的分区是能够改变的; 【五大特性】web A list of partitions:一个分区列表,RDD中的数据都存储在
相关文章
相关标签/搜索