海量数据随机选取

海量数据随机选取 转自更详细的大神博客 问题1:在不知道文件总行数的情况下,如何从文件中随机的抽取一行,并且每行被抽中的概率相等? 问题2:在不知道文件总行数的情况下,如何从文件中随机的抽取 k 行,并且每行被抽中的概率相等? 问题一:抽取一行 在知道文件行数的情况下,直接用 rand 函数就可以 不知道文件行数的时候,我们需要一个概念来使得对每一行取出的概率相等,也即随机。这个概念即蓄水池抽样
相关文章
相关标签/搜索