ComputeColStats UDF中近似算法的介绍

时间 2019-12-24

标签 computecolstats udf 近似算法介绍繁體版

原文原文链接

一，前面的话算法

表和列的统计信息对CBO的结果有着极大地影响，可以高效和准确的收集统计信息是极其重要的。但高效和准确是矛盾的，更准确的统计信息每每须要更多的计算，咱们能作的是在高效和准确之间找到更好的平衡。接下来的内容是关于目前在ComputeColStats中用的一些近似算法。函数

二，收集的内容性能

目前针对列主要会收集如下统计信息：测试

cntRows ：　列中总数据个数，包括nulll值ui

avgColLen ：列的平均长度blog

maxColLEN ：列的最大长度ci

minValue ：列的最小值资源

maxValue ：列的最大值get

numNulls ：列中null值个数hash

numFalses ：若是boolean型，false值的个数

numTrues ：若是boolean型，true值的个数

countDistinct ：不一样值的个数

topK ：topk值的个数，数据倾斜的标志

通常说来除了countDistinct 和topK 之外的统计信息基本上消耗资源并不大（minValue和maxValue存在大量比较，也会消耗很多资源），问题主要集中在countDistinct 和topK上。下面要描述的近似算法也是主要针对这两个点。

三，countDistinct 实现

算法：Flajolet-Martin

论文见：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.81.3869&rep=rep1&type=pdf

简介

对于n个object，若是Hash结果中，结尾（或开头）连续0的长度的最大值是m，那么，能够估计惟一的object的数据量是2^m个。

假设有一个很是好的hash函数，可以将object哈希成一个二进制数0101……，而且很是均匀的打散到二进制空间。若是有8个惟一的object，将它们所有Hash以后，结果按照几率应该有4个object的Hash值以0结尾，这4个Hash值又应该有2个结尾是00，这2个中又有1个结尾是000。

采用多个独立的hash函数，每一个hash函数分别计算最长0比特序列，而后求平均值，减小偏差。

hash函数的个数基本上就决定了Flajolet-Martin算法的效率和准确度，后面有针对不一样hash函数个数的测试结果。

四，topK实现

算法：Space-Saving

伪代码：

五，基本性能测试

结论：

１，Base Stats对性能也是存在影响的，主要是minValue和maxValue的计算，尤为是collen较长的状况下

２，通常说来distinct相对topK会更慢些，除非在collen较长的时候，topK也是基于比较来的

３，随着列个数的增长，收集stats消耗的时间也线性的增长

４，distinct的计算基于hash，而topK的计算基于比较，因此前者对collen并不敏感

六，不一样hash函数个数执行效率的测试

结论：

基本上随着hash函数个数的增长线性的增加

七，不一样hash函数个数准确性的测试

结论：

hash函数个数增长到32个后，准确率基本能知足需求

八，不一样hash函数个数的测试总结

结论：选择32个hash函数计算distinct，平衡执行效率及准确性

九，sample算法的选择

１，必要性：

基于前面对执行效率的测试，为了不对任务产生过大的影响，Sample是必定要作的

２，Sample算法的要求：

效率，随机

３，Sample的选择：

采用buildin的sample函数实现

前提是假设数据分布是随机的

４，Sample的影响：

对某些stats基本没影响，好比说avgColLen，maxColLen，minValue，maxValue

对某些stats有些影响，好比说cntRows， numNulls，numFalses，numTrues，topK

对countDistinct影响比较大，而且countDistinct也更加剧要，须要特别注意

５，Sample后countDistinct的处理：

根据Sample的countDistinct预测完整数据的countDistinct，采样，拟合

基本思路以下图：

但愿经过对sample内的数据进行采样，利用这些采样点描绘所有数据的形态，达到基本准确预测所有数据distinct的结果。这是个美好的愿望，在sample的数据相对较少的时候，总有些状况下sample下的形态跟完整数据的形态存在较大的差别，此时的偏差会比较大。

十，不一样sample比例执行效率的测试

采样比例在1/100后执行时间差距不大，此时最大的消耗在数据读取上，而不针对distinct的计算。

十一，不一样sample比例准确性的测试

针对表meta.m_fuxi_instance表中的列project_name，odps_inst_id作了些测试，结果如上。看起来1/50的结果仍是能够接受的。

多说一句，对于distinct来讲，并不须要彻底的正确，10倍之内的差距目前来讲是能够接受的，这也是咱们能够经过采样来提升效率的前提。

十二，按sample比例为1/25为例的计算结果

执行时间和准确率基本均可以知足如今需求

十三，后续的工做

对于准确率的提高是后续须要作的事情之一，这关键仍是如何在sample里面找带更有表明性的点来预测所有数据的形态。但，要做好心理准备，对于某些场景来讲，可能就找不到这样的方法，须要接受必定范围的偏差。

原文连接

阅读更多干货好文，请关注扫描如下二维码：

ComputeColStats UDF中 近似算法的介绍

ComputeColStats UDF中近似算法的介绍