一次查询2

用df计算sql,写入hive表,用相同的聚合处理3类不同的distinct(因为一次只算一个distinct可以利用shuffle的分发,提高速度,对大数据量的处理,比如20亿条数据distinct,大概只能一次distinct一个值了。)发现对于数据量较小的第二,第三块处理时间较快,对较多的groupping sets产生数据也较少,而对第一个有20亿条需要处理的部分则输入50G,产生2Tgr
相关文章
相关标签/搜索