SparkSql------RDD、DataFrame、DataSet

RDD RDD是一个懒执行的不可变的可以支持Functional(函数式编程)的并行数据集合。 RDD的最大好处就是简单,API的人性化程度很高。 RDD的劣势是性能限制,它是一个JVM驻内存对象,这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。 DataFrame 简单来说DataFrame是RDD+Schema的集合 什么是Schema? 之前我们学习过MySQL数据库,在数据
相关文章
相关标签/搜索