Spark RDD、DataFrame和DataSet的区别

RDD RDD(Resilient Distributed Datasets)  ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能经过在其余RDD执行肯定的转换操做(如map、join和group by)而建立,然而这些限制使得实现容错的开销很低。对开发者而言,RDD能够看做是Spark的一个对象,它自己运行于内存中,如
相关文章
相关标签/搜索