谈谈RDD、DataFrame、Dataset的区别和各自的优点

在spark中,RDD、DataFrame、Dataset是最经常使用的数据类型,本博文给出笔者在使用的过程当中体会到的区别和各自的优点sql   共性: 一、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利数组 二、三者都有惰性机制,在进行建立、转换,如map方法时,不会当即执行,只有在遇到Action如foreach时,三者才会开始遍
相关文章
相关标签/搜索