Spark RDD、DataFrame、Dataset的区别

Resilient Distributed Dataset (RDD) RDD是一个不可变的分布式的数据元素集合,RDD中的元素在集群上是分区的,提供了Transformation和Action两种并行操作。 优点:强类型,编译时类型安全,符合面向对象的编程思想,可以处理结构化数据和非结构化数据。 缺点:默认采用的是Java序列化方式,无论是集群间的通信,还是IO操作都需要对对象的结构和数据进行序
相关文章
相关标签/搜索