SparkSQL中 RDD、DataFrame、DataSet三者的区别与联系

RDD RDD:弹性分布式数据集;不可变、可分区、元素可以并行计算的集合。 优点: RDD编译时类型安全:编译时能检查出类型错误; 面向对象的编程风格:直接通过类名点的方式操作数据。 缺点: 序列化和反序列化的性能开销很大,大量的网络传输; 构建对象占用了大量的heap堆内存,导致频繁的GC(程序进行GC时,所有任务都是暂停) DataFrame DataFrame以RDD为基础的分布式数据集。
相关文章
相关标签/搜索