大数据面试知识点总结Spark Sql、DataFrames、DataSet

1 简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系? (笔试重点) 1)RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化。 GC的性能开销,频繁的创建和销毁对象, 势必会增加GC 2)Dat
相关文章
相关标签/搜索