ComputeColStats UDF中 近似算法的介绍(续)

在前一篇文章的最后提到,对于准确率的提升是后续需要做的事情之一。接下来看看对于提升准确率,还有哪些事情可以做。 一,回顾 首先回顾下前一篇文章最后得到的结果,如下: 执行时间先忽略,只看准确率。对于上面8个字段,有些在sample为25(采样比例1/25)的情况下还是相当准确的,比如odps_task_type,start_time;而有些则存在一定差距,比如project_name,fuxi_c
相关文章
相关标签/搜索