4,SparkSql

一,RDD与DataFrame与DataSet的区别 1,RDD的劣势是性能限制,它是一个jvm驻内存对象,这也就决定了在GC的限制和数据增加时序列化成本的提高 2,Dataframe与RDD类似,也是一个分布式数据容器。然而DataFrame更像是传统数据库的二维表格,除了数据以外还记录数据的结构信息,即schema.同时与hive类似,DataFrame也支持嵌套数据类型struct,arra
相关文章
相关标签/搜索