数据结构与算法之美-5 排序算法3 [MD]

时间 2021-08-14

标签 html git github 算法编程数组微信函数性能学习栏目 HTML 繁體版

原文原文链接

个人GitHub	个人博客	个人微信	个人邮箱
baiqiantao	baiqiantao	bqt20094	baiqiantao@sina.com

13 | 线性排序：如何根据年龄给100万用户数据排序？

今天讲的是三种时间复杂度是 O(n) 的排序算法：桶排序、计数排序、基数排序。git

由于这些排序算法的时间复杂度是线性的，因此咱们把这类排序算法叫做线性排序（Linear sort）。github

之因此能作到线性的时间复杂度，主要缘由是，这三个算法是非基于比较的排序算法，都不涉及元素之间的比较操做。算法

这几种排序算法理解起来都不难，时间、空间复杂度分析起来也很简单，可是对要排序的数据要求很苛刻，咱们学习的重点是掌握这些排序算法的适用场景。编程

总结

桶排序时间复杂度是O(n+k)，计数排序时间复杂度是O(n+k)，基数排序时间复杂度是O(n*k)
桶排序空间复杂度是O(n)，计数排序空间复杂度是O(k)，基数排序空间复杂度是O(n+k)
都是稳定的排序算法

桶排序 Bucket sort

核心思想是将要排序的数据分到几个有序的桶里，每一个桶里的数据再单独进行排序。桶内排完序以后，再把每一个桶里的数据按照顺序依次取出，组成的序列就是有序的了。数组

时间复杂度分析

若是要排序的数据有 n 个，咱们把它们均匀地划分到 m 个桶内，每一个桶里就有 k=n/m 个元素。
每一个桶内部使用快速排序，时间复杂度为 O(k * logk)。
m 个桶排序的时间复杂度就是 O(m * k * logk)，由于 k=n/m，因此整个桶排序的时间复杂度就是 O(n*log(n/m))。
当桶的个数 m 接近数据个数 n 时，log(n/m) 就是一个很是小的常量，这个时候桶排序的时间复杂度接近 O(n)。

桶排序对要排序数据的要求

首先，要排序的数据须要很容易就能划分红 m 个桶，而且，桶与桶之间有着自然的大小顺序。这样每一个桶内的数据都排序完以后，桶与桶之间的数据不须要再进行排序。
其次，数据在各个桶之间的分布是比较均匀的。若是数据通过桶的划分以后，有些桶里的数据很是多，有些很是少，很不平均，那桶内数据排序的时间复杂度就不是常量级了。在极端状况下，若是数据都被划分到一个桶里，那就退化为 O(nlogn) 的排序算法了。

桶排序比较适合用在外部排序中

所谓的外部排序就是数据存储在外部磁盘中，数据量比较大，内存有限，没法将数据所有加载到内存中。微信

好比说咱们有 10GB 的订单数据，咱们但愿按订单金额进行排序，可是咱们的内存有限，只有几百 MB，这个时候该怎么办呢？函数

咱们能够先扫描一遍文件，看订单金额所处的数据范围。假设通过扫描以后咱们获得，订单金额最小是 1 元，最大是 10 万元。
咱们将全部订单根据金额划分到 100 个桶里，第一个桶咱们存储金额在 1 元到 1000 元以内的订单，第二桶存储金额在 1001 元到 2000 元以内的订单，以此类推。每个桶对应一个文件，而且按照金额范围的大小顺序编号命名（00，01，02...99）。
理想的状况下，若是订单金额在 1 到 10 万之间均匀分布，那订单会被均匀划分到 100 个文件中，每一个小文件中存储大约 100MB 的订单数据，咱们就能够将这 100 个小文件依次放到内存中，用快排来排序。
等全部文件都排好序以后，咱们只须要按照文件编号，从小到大依次读取每一个小文件中的订单数据，并将其写入到一个文件中，那这个文件中存储的就是按照金额从小到大排序的订单数据了。

若是订单金额分布不均匀，能够对数据较多的区间再次使用桶排序划分为更小的区间。性能

计数排序 Counting sort

计数排序实际上是桶排序的一种特殊状况。学习

当要排序的 n 个数据所处的范围并不大的时候，好比最大值是 k，咱们就能够把数据划分红 k 个桶。每一个桶内的数据值都是相同的，省掉了桶内排序的时间。

好比，高考考生成绩排名。

计数排序动图

这个动图并不许确，其更像是桶排序的过程，由于看起来他是先把待排的元素一个个的放到了桶里，这样的空间复杂度只能是O(n)，就无法优化为O(k)。

计数排序过程分析

假设有 8 个考生，其成绩放在一个数组 A[8] 中：2,5,3,0,2,3,0,3。考生的成绩从 0 到 5 分，咱们使用大小为 6 的数组 C[6] 表示桶，其中下标为分数、值为对应的考生个数。

首先咱们须要遍历一遍考生分数，而后就能够获得 C[6] 的值：[2,0,2,3,0,1]
从中能够看出，分数为 3 分的考生有 3 个，小于 3 分的考生有 4 个
因此，成绩为 3 分的考生在排序以后的有序数组 R[8] 中，会保存在下标为 4，5，6 的位置

那咱们如何快速计算出每一个分数的考生在有序数组中对应的存储位置呢？

咱们首先对 C[6] 数组顺序求和，求和后 C[k] 里存储的就是小于等于分数 k 的考生个数。顺序求和后 C[6] = [2,2,4,7,7,8]

咱们从后到前依次扫描数组 A：2,5,3,0,2,3,0,3
- 好比，当扫描到 3 时，咱们能够从数组 C 中取出下标为 3 的值 7，也就是说，到目前为止，包括本身在内，分数小于等于 3 的考生有 7 个，也就是说 3 是数组 R 中的第 7 个元素（也就是数组 R 中下标为 6 的位置）。当 3 放入到数组 R 中后，小于等于 3 的元素就只剩下了 6 个了，因此相应的 C[3] 要减 1，变成 6。
- 以此类推，当咱们扫描到第 2 个分数为 3 的考生的时候，就会把它放入数组 R 中的第 6 个元素的位置（也就是下标为 5 的位置）。
- 当咱们扫描完整个数组 A 后，数组 R 内的数据就是按照分数从小到大有序排列的了。

从数组 A 中取数，也是能够从头开始取，可是就不是稳定排序算法了(由于最早取到的元素会被放到后面)

总结

数排序只能用在数据范围不大的场景中，若是数据范围 k 比要排序的数据 n 大不少，就不适合用计数排序了。
并且，计数排序只能给非负整数排序，若是要排序的数据是其余类型的，要将其在不改变相对大小的状况下，转化为非负整数。

桶排序空间复杂度是O(n)，而计数排序空间复杂度是O(k)

基数排序 Radix sort

假设咱们有 10 万个手机号码，但愿将这 10 万个手机号码从小到大排序，你有什么比较快速的排序方法呢？

这个问题里有这样的规律：假设要比较两个手机号码 a，b 的大小，若是在前面几位中，a 手机号码已经比 b 手机号码大了，那后面的几位就不用看了。

排序过程

先按照最后一位来排序手机号码，而后再按照倒数第二位从新排序，以此类推，最后按照第一位从新排序。通过 11 次排序以后，手机号码就都有序了。

注意，这里按照每位来排序的排序算法必定要是稳定的。

时间复杂度分析

根据每一位来排序，咱们能够用刚讲过的桶排序或者计数排序，它们的时间复杂度能够作到 O(n)
若是要排序的数据有 k 位，那咱们就须要 k 次桶排序或者计数排序，总的时间复杂度是 O(k*n)
当 k 不大的时候，好比手机号码排序的例子，k 最大就是 11，因此基数排序的时间复杂度就近似于 O(n)

基数排序对要排序数据的要求

须要能够分割出独立的位来比较
位之间有递进的关系，若是 a 数据的高位比 b 数据大，那剩下的低位就不用比较了
每一位的数据范围不能太大，要能够用线性排序算法来排序，不然，基数排序的时间复杂度就没法作到 O(n) 了

实际上，有时候要排序的数据并不都是等长的，好比排序牛津字典中的 20 万个英文单词。这时，咱们能够把全部的单词补齐到相同长度(好比在后面补0)，这样就能够继续用基数排序了。

14 | 排序优化：如何实现一个通用的、高性能的排序函数？

如何选择合适的排序算法？

线性排序算法的时间复杂度虽然比较低，但适用场景比较特殊，因此不适合做为通用的排序函数。
若是对小规模数据进行排序，能够选择时间复杂度是 O(n^2) 的算法
若是对大规模数据进行排序，时间复杂度是 O(nlogn) 的算法更加高效

为了兼顾任意规模数据的排序，通常都会首选时间复杂度是 O(nlogn) 的排序算法来实现排序函数。

归并排序能够作到平均状况、最坏状况下的时间复杂度都是 O(nlogn)，可是归并排序不是原地排序算法，空间复杂度是 O(n)，占用空间过大
快速排序空间复杂度是O(logn)，虽然快速排序在最坏状况下的时间复杂度是 O(n^2)，可是有不少方法能够优化

如何优化快速排序？

时间复杂度退化为O(n^2)的主要缘由是由于咱们分区点选得不够合理。

为了提升快速排序算法的性能，咱们要尽量地让每次分区都比较平均。最理想的分区点是：被分区点分开的两个分区中，数据的数量差很少。

两个比较经常使用、比较简单的分区算法：

三数取中法：从区间的首、尾、中间，分别取出一个数，而后取这 3 个数的中间值做为分区点
随机法：每次从要排序的区间中，随机选择一个元素做为分区点

分析 C 语言中的排序函数 qsort()

虽然说 qsort() 从名字上看，很像是基于快速排序算法实现的，实际上它并不只仅用了快排这一种算法。

要排序的数据量比较小的时候，qsort() 会优先使用归并排序
- 对于小数据量的排序，归并排序须要额外内存空间的问题不大，用空间换时间
要排序的数据量比较大的时候，qsort() 会改成用快速排序
- qsort() 选择分区点的方法就是三数取中法
- qsort() 经过本身实现一个堆上的栈，手动模拟递归来解决递归太深会致使堆栈溢出的问题
在快速排序的过程当中，当要排序的区间中元素的个数小于等于 4 时，qsort() 就退化为比较简单、不须要递归的插入排序
- 由于在小规模数据面前，O(n^2) 时间复杂度的算法并不必定比 O(nlogn) 的算法执行时间长
- 在 qsort() 插入排序的算法实现中，也利用了哨兵这种编程技巧。虽然哨兵可能只是少作一次判断，可是毕竟排序函数是很是经常使用、很是基础的函数，性能的优化要作到极致。

2021-8-13

数据结构与算法之美-5 排序算法3 [MD]

目录

13 | 线性排序：如何根据年龄给100万用户数据排序？

总结

桶排序 Bucket sort

时间复杂度分析

桶排序对要排序数据的要求

桶排序比较适合用在外部排序中

计数排序 Counting sort

计数排序动图

计数排序过程分析

总结

基数排序 Radix sort

排序过程

时间复杂度分析

基数排序对要排序数据的要求

14 | 排序优化：如何实现一个通用的、高性能的排序函数？

如何选择合适的排序算法？

如何优化快速排序？

分析 C 语言中的排序函数 qsort()