TOP K 问题

问题:从N个数中找出最大的K个数。linux

首先,要解决的第一件事情,就是这N个数可否所有存入内存。数组

在linux系统中,栈的最大可分配空间是8M,能够用ulimit -s 命令查看。堆可分配的最大内存空间32位系统和64位系统不一样。优化

32位系统中,一个进程可寻址的空间只有4G,即2的32次方,据网上说,可分配给堆得空间约2.8G。因此,堆可分配的最大内存 = min(2.8G,剩余内存大小).net

64位系统中,一个进程可寻址的空间原则上是2的64次方,如今的64位机器通常只使用后48位寻址,那也是258T,如今的内存远达不到这个量级。因此,堆可分配的最大内存 = 剩余内存大小。blog

固然,如今都有swap物理空间,因此可分配的堆空间应该比剩余内存大小要大一些。具体大多少,不是很清楚,须要了解swap空间的使用策略。排序

 

若是,这N个数能够都存入内存。进程

一、最简单,也是最低效的方法是:将这N个数排序,取前K个数便可。通常使用快排或者堆排序,快排在实际运用中能更好一些。 o(N*log2N)内存

二、部分快排:不断划分区间,直到大的部分的数目为K。o(N*log2K)it

三、部分堆排序:堆排序的方法是先建堆,而后不断取堆顶元素,而后从新调整堆。部分堆排序的方法是先将前K个元素建最小堆,而后后面的元素不断与前K个元素比较,从新调整堆,保证堆顶元素比其他N-K个数都大。o(N*log2K)遍历

四、寻找第K大的数。先找出第K大数,而后遍历输出比第K大的数。利用二分法找第K大的数。o(N*log2N)

五、数组下标法。要求比较多,数要为整数,并且不能太大。就能够每一个数做为数组下标,存放的是该数出现的次数。o(N)

 

实现:http://blog.csdn.net/xiaoding133/article/details/8037086

 

总的来讲,部分快排和部分堆排序比较靠谱。第一种方法太蠢,方法四虽然能够优化,但听说实际效果仍是很差,方法五要求太多,但若是符合要求的话,方法五仍是很高效的。

相关文章
相关标签/搜索