蓄水池抽样算法

问题定义: 算法

    给你一个长度为N的链表。N很大,但你不知道N有多大。你的任务是从这N个元素中随机取出k个元素。你只能遍历这个链表一次。你的算法必须保证取出的元素刚好有k个,且它们是彻底随机的(出现几率均等)。 dom

蓄水池抽样算法: spa

    

该算法是针对从一个序列中随机抽取不重复的k个数,保证每一个数被抽取到的几率为k/n这个问题而构建的。作法是: -
首先构建一个可放k个元素的蓄水池,将序列的前k个元素放入蓄水池中。
而后从第k+1个元素开始,以k/n的几率来决定该元素是否被替换到池子中。 当遍历完全部元素以后,就能够获得随机挑选出的k个元素。复杂度为O(n). it

其伪代码以下: 遍历

Init : a reservoir with the size: k

        for    i= k+1 to N 链表

            M=random(1, i);
            if( M < k)
                 SWAP the Mth value and ith value
       end for co

证实每一个数被取到的几率为k/n: block

    1. 对于第i个数(i<k),在前k步被选中的几率是1, 从第k+1步开始,i不被选中的几率为k/k+1,那么读到第n个数时, 第i个数(i<k)被选中的几率 = 被选中的几率 * 之后每一步都不被换走的几率,即
      1 * k/k+1 * k+1/k+2 n-1/n = k/n background

    2. 对于第j个数(j>=k)被选中的几率为: 在他出现时被选中的几率 * 在他出现之后不被换走的几率,即: 
      k/j * j /j+1 。。。n-1/n = k/n

    3. 综上得证。

相关文章
相关标签/搜索