蓄水池抽样基于MapReduce的实现

</pre>    问题:如今有一个很大的数据,假设有几千万条但不知道具体有多少条,如何在只遍历一次的状况下,随机取出其中K条数据?<p></p><p>    思路:能够将此问题抽象为蓄水池抽样问题。即,先把读取到的前K条数据放入列表中,对于第K+1个对象,以K/(K+1)的几率选择该对象;对于第K+2个对象,以K/(K+2)的几率选择该对象;以此类推,以K/M的几率选择第M个对象(M>K)。若是
相关文章
相关标签/搜索