SparkSQL(8):DataSet和DataFrame区别和转换

1.概念: (1)DataSet和RDDjava   大数据的框架许多都要把内存中的数据往磁盘里写,因此DataSet取代rdd和dataframe。由于,现阶段底层序列化机制使用的是java的或者Kryo的形式。可是,java序列化出来的数据很大,影响存储Kryo对于小数据量的处理很好,可是数据量一大,又会出现问题,因此官方的解决方法是使用自定义的编码器(Encoder)去序列化sql (2)D
相关文章
相关标签/搜索