一次查询2

时间 2021-01-07

原文原文链接

用df计算sql,写入hive表，用相同的聚合处理3类不同的distinct（因为一次只算一个distinct可以利用shuffle的分发，提高速度，对大数据量的处理，比如20亿条数据distinct，大概只能一次distinct一个值了。）发现对于数据量较小的第二，第三块处理时间较快，对较多的groupping sets产生数据也较少，而对第一个有20亿条需要处理的部分则输入50G，产生2Tgr