Spark RDD或Dataframe持久化的选择

背景 测试数据(df,dataframe格式):800万条, 4.5G。 计算配置:每一个executor的memory为20G,32个核。 测试语句:count条数—df.groupby("_90").count().show()web 持久化操做 持久化操做 特色 代码 计算时间 无 df.count() 17秒 只到内存 以分区的形式存到集群的各机器内存中上 df.persist(Stora
相关文章
相关标签/搜索