RDD和Dataframe

RDD是一个分布式的无序的列表。 RDD中可以存储任何的单机类型的数据,但是,直接使用RDD在字段需求明显时,存在算子难以复用的缺点。 举例如下: 例如,现在RDD 存的数据是一个Person类型的数据,现在要求所有每个年龄段(10年一个年龄段)的人中最高的身高和最大的体重。 使用RDD 接口,因为RDD不了解其中存储的数据的具体的结构,数据的结构对它来说就是黑盒,于是这就需要用户自己去写一个很特
相关文章
相关标签/搜索