Spark RDD或Dataframe持久化的选择

时间 2019-12-04

原文原文链接

背景测试数据（df，dataframe格式）：800万条, 4.5G。计算配置：每一个executor的memory为20G，32个核。测试语句：count条数—df.groupby("_90").count().show()web 持久化操做持久化操做特色代码计算时间无 df.count() 17秒只到内存以分区的形式存到集群的各机器内存中上 df.persist(Stora