博文地址html
个人GitHub | 个人博客 | 个人微信 | 个人邮箱 |
---|---|---|---|
baiqiantao | baiqiantao | bqt20094 | baiqiantao@sina.com |
今天讲的是三种时间复杂度是 O(n)
的排序算法:桶排序、计数排序、基数排序。git
由于这些排序算法的时间复杂度是线性的,因此咱们把这类排序算法叫做线性排序
(Linear sort)。github
之因此能作到线性的时间复杂度,主要缘由是,这三个算法是非基于比较
的排序算法,都不涉及元素之间的比较操做。算法
这几种排序算法理解起来都不难,时间、空间复杂度分析起来也很简单,可是对要排序的数据要求很苛刻
,咱们学习的重点是掌握这些排序算法的适用场景
。编程
O(n+k)
,计数排序时间复杂度是O(n+k)
,基数排序时间复杂度是O(n*k)
O(n)
,计数排序空间复杂度是O(k)
,基数排序空间复杂度是O(n+k)
核心思想是将要排序的数据分到几个有序的桶
里,每一个桶里的数据再单独进行排序
。桶内排完序以后,再把每一个桶里的数据按照顺序依次取出,组成的序列就是有序的了。数组
k=n/m
个元素。O(k * logk)
。O(m * k * logk)
,由于 k=n/m
,因此整个桶排序的时间复杂度就是 O(n*log(n/m))
。log(n/m)
就是一个很是小的常量,这个时候桶排序的时间复杂度接近 O(n)
。O(nlogn)
的排序算法了。所谓的外部排序就是数据存储在外部磁盘中,数据量比较大,内存有限,没法将数据所有加载到内存中。微信
好比说咱们有 10GB 的订单数据,咱们但愿按订单金额进行排序,可是咱们的内存有限,只有几百 MB,这个时候该怎么办呢?函数
(00,01,02...99)
。若是订单金额分布不均匀,能够对数据较多的区间再次使用桶排序
划分为更小的区间
。性能
计数排序实际上是桶排序的一种特殊状况。学习
当要排序的 n 个数据所处的范围并不大的时候,好比最大值是 k,咱们就能够把数据划分红 k 个桶。每一个桶内的数据值都是相同的,省掉了桶内排序的时间。
好比,高考考生成绩排名。
这个动图并不许确,其更像是桶排序的过程,由于看起来他是先把待排的元素一个个的放到了桶里,这样的空间复杂度只能是
O(n)
,就无法优化为O(k)
。
假设有 8 个考生,其成绩放在一个数组 A[8]
中:2,5,3,0,2,3,0,3
。考生的成绩从 0 到 5 分,咱们使用大小为 6 的数组 C[6]
表示桶,其中下标为分数
、值为对应的考生个数
。
C[6]
的值:[2,0,2,3,0,1]
R[8]
中,会保存在下标为 4,5,6 的位置那咱们如何快速计算出每一个分数的考生在有序数组中对应的存储位置呢?
C[6]
数组顺序求和,求和后 C[k]
里存储的就是小于等于分数 k 的考生个数。顺序求和后 C[6] = [2,2,4,7,7,8]
从后到前
依次扫描数组 A:2,5,3,0,2,3,0,3
C[3]
要减 1,变成 6。从数组 A 中取数,也是能够从头开始取,可是就不是稳定排序算法了(由于最早取到的元素会被放到后面)
数据范围不大
的场景中,若是数据范围 k 比要排序的数据 n 大不少,就不适合用计数排序了。非负整数
排序,若是要排序的数据是其余类型的,要将其在不改变相对大小的状况下,转化为非负整数。桶排序空间复杂度是
O(n)
,而计数排序空间复杂度是O(k)
假设咱们有 10 万个手机号码,但愿将这 10 万个手机号码从小到大排序,你有什么比较快速的排序方法呢?
这个问题里有这样的规律:假设要比较两个手机号码 a,b 的大小,若是在前面几位中,a 手机号码已经比 b 手机号码大了,那后面的几位就不用看了。
先按照最后一位来排序手机号码,而后再按照倒数第二位从新排序,以此类推,最后按照第一位从新排序。通过 11 次排序以后,手机号码就都有序了。
注意,这里按照每位来排序的排序算法必定要是
稳定的
。
O(n)
O(k*n)
O(n)
能够分割
出独立的位来比较有递进的关系
,若是 a 数据的高位比 b 数据大,那剩下的低位就不用比较了数据范围不能太大
,要能够用线性排序算法来排序,不然,基数排序的时间复杂度就没法作到 O(n)
了实际上,有时候要排序的数据并不都是等长的,好比排序牛津字典中的 20 万个英文单词。这时,咱们能够把全部的单词补齐
到相同长度(好比在后面补0
),这样就能够继续用基数排序了。
O(n^2)
的算法O(nlogn)
的算法更加高效为了兼顾任意规模数据的排序,通常都会首选时间复杂度是 O(nlogn)
的排序算法来实现排序函数。
O(nlogn)
,可是归并排序不是原地排序算法,空间复杂度是 O(n)
,占用空间过大O(logn)
,虽然快速排序在最坏状况下的时间复杂度是 O(n^2)
,可是有不少方法能够优化时间复杂度退化为O(n^2)
的主要缘由是由于咱们分区点
选得不够合理。
为了提升快速排序算法的性能,咱们要尽量地让每次分区都比较平均。最理想的分区点是:被分区点分开的两个分区中,数据的数量差很少。
两个比较经常使用、比较简单的分区算法:
虽然说 qsort()
从名字上看,很像是基于快速排序算法实现的,实际上它并不只仅用了快排这一种算法。
qsort()
会优先使用归并排序
qsort()
会改成用快速排序
qsort()
选择分区点的方法就是三数取中法
qsort()
经过本身实现一个堆上的栈,手动模拟递归
来解决递归太深会致使堆栈溢出
的问题qsort()
就退化为比较简单、不须要递归的插入排序
O(n^2)
时间复杂度的算法并不必定比 O(nlogn)
的算法执行时间长qsort()
插入排序的算法实现中,也利用了哨兵这种编程技巧。虽然哨兵可能只是少作一次判断,可是毕竟排序函数是很是经常使用、很是基础的函数,性能的优化要作到极致。2021-8-13