世界上最快的排序算法——Timsort

前言

通过60多年的发展,科学家和工程师们发明了不少排序算法,有基本的插入算法,也有相对高效的归并排序算法等,他们各有各的特色,好比归并排序性能稳定、堆排序空间消耗小等等。可是这些算法也有本身的局限性好比快速排序最坏状况和冒泡算法同样,归并排序须要消耗的空间最多,插入排序平均状况的时间复杂度过高。在实际工程应用中,咱们但愿获得一款综合性能最好的排序算法,可以兼具最坏和最好时间复杂度(空间复杂度的优化能够靠后毕竟内存的价格是愈来愈便宜),因而基于归并和插入排序的TimSort就诞生了,而且被用做Java和Python的内置排序算法。html

简介

Timsort是一个自适应的、混合的、稳定的排序算法,融合了归并算法和二分插入排序算法的精髓,在现实世界的数据中有着特别优秀的表现。它是由Tim Peter于2002年发明的,用在Python这个编程语言里面。这个算法之因此快,是由于它充分利用了现实世界的待排序数据里面,有不少子串是已经排好序的不须要再从新排序,利用这个特性而且加上合适的合并规则能够更加高效的排序剩下的待排序序列。java

当Timsort运行在部分排序好的数组里面的时候,须要的比较次数要远小于\(nlogn\),也是远小于相同状况下的归并排序算法须要的比较次数。可是和其余的归并排序算法同样,最坏状况下的时间复杂度是\(O(nlogn)\)的水平。可是在最坏的状况下,Timsort须要的临时存储空间只有\(n/2\),在最好的状况下,须要的额外空间是常数级别的。从各个方面都可以击败须要\(O(n)\)空间和稳定\(O(nlogn)\)时间的归并算法。python

amazing

OK!结合精心制做的动图,让咱们来看看这个牛皮的Timsort究竟是怎么回事。算法

算法

限制

在最初的Tim实现的版本中,对于长度小于64数组直接进行二分插入排序,不会进行复杂的归并排序,由于在小数组中插入排序的性能已经足够好。在Java中有略微的改变,这个阈值被修改为了32,听说在实际中32这个阈值可以获得更好的性能。编程

二分插入排序

插入排序的逻辑是将排好序的数组以后的一个元素不停的向前移动交换元素直到找到合适的位置,若是这个新元素比前面的序列的最小的元素还要小,就要和前面的每一个元素进行比较,浪费大量的时间在比较上面。采用二分搜索的方法直接找到这个元素应该插入的位置,就能够减小不少次的比较。虽然仍然是须要移动相同数量的元素,可是复制数组的时间消耗要小于元素间的一一互换。数组

好比对于[2,3,4,5,6,1],想把1插入到前面,若是使用直接的插入排序,须要5次比较,可是使用二分插入排序,只须要2次比较就直到插入的位置,而后直接把2,3,4,5,6所有向后移动一位,把1放入第一位就完成了插入操做。编程语言

Run

首先介绍其中最重要的一个概念,英文叫作run,翻译能力宕机的我就在这篇文章中用英文名字吧( ╯□╰ )。所谓的run就是一个连续上升(此处的上升包括两个元素相等的状况)或者降低(严格递减)的子串。svg

好比对于序列[1,2,3,4,3,2,4,7,8],其中有三个run,第一个是[1,2,3,4],第二个是[3,2],第三个是[4,7,8],这三个run都是单调的,在实际程序中对于单调递减的run会被反转成递增的序列svn

create-run

在合并序列的时候,若是run的数量等于或者略小于2的幂次方的时候,效率是最高的;若是略大于2的幂次方,效率就会特别低。因此为了提升合并时候的效率,须要尽可能控制每一个run的长度,定义一个minrun表示每一个run的最小长度,若是长度过短,就用二分插入排序把run后面的元素插入到前面的run里面。对于上面的例子,若是minrun=5,那么第一个run是不符合要求的,就会把后面的3插入到第一个run里面,变成[1,2,3,3,4]性能

insert-run

在执行排序算法以前,会计算出这个minrun的值(因此说这个算法是自适应的,会根据数据的特色来进行自我调整),minrun会从32到64(包括)选择一个数字,使得数组的长度除以minrun等于或者略小于2的幂次方。好比长度是65,那么minrun的值就是33;若是长度是165minrun就是42(注意这里的Java的minrun的取值会在16到32之间)。

这里用Java源码作示范:

private static int minRunLength(int n) {
    assert n >= 0;
    int r = 0;        // 若是低位任何一位是1,就会变成1
    while (n >= 64) { // 改为了64
        r |= (n & 1);
        n >>= 1;
    }
    return n + r;
}

合并

在归并算法中合并是两两分别合并,第一个和第二个合并,第三个和第四个合并,而后再合并这两个已经合并的序列。可是在Timsort中,合并是连续的,每次计算出了一个run以后都有可能致使一次合并,这样的合并顺序可以在合并的同时保证算法的稳定性

在Timsort中用一个来保存每一个run,好比对于上面的[1,2,3,4,3,2,4,7,8]这个例子,栈底是[1,2,3,4],中间是[3,2],栈顶是[4,7,8],每次合并仅限于栈里面相邻的两个run

run-in-stack

合并条件

为了保证Timsort的合并平衡性,Tim制定一个合并规则,对于在栈顶的三个run,用XYZ分别表示他们的长度,其中X在栈顶,必须始终维持一下的两个规则:

\[Z > Y + X \]

\[Y > X \]

一旦有其中的一个条件不被知足,Y这个子序列就会和XZ中较小的元素合并造成一个新run,而后会再次检查栈顶的三个run看看是否仍然知足条件。若是不知足则会继续进行合并,直至栈顶的三个元素(若是只有两个run就只须要知足第二个条件)知足这两个条件。

stack

图片来自这里

所谓的合并的平衡性就是为了让合并的两个数组的大小尽可能接近,提升合并的效率。因此在合并的过程当中须要尽可能保留这些run用于发现后来的模式,可是咱们又想尽可能快的合并内存层级比较高的run,而且栈的空间是有限的,不能浪费太多的栈空间。经过以上的两个限制,能够将整个栈从底部到顶部的run的大小变成严格递减的,而且收敛速度和斐波那契数列同样,这样就能够应用斐波那契数列和的公式根据数组的长度计算出须要的栈的大小,必定是比\(log_{1.618}N\)要小的,其中N是数组的长度。

在最理想的状况下,这个栈从底部到顶部的数字应该是1286432168422,这样从栈顶合并到栈底,每次合并的两个run的长度都是相等的,都是完美的合并。

若是遇到不完美的状况好比5004001000,那么根据规则就会合并变成9001000,再次检查规则以后发现仍是不知足,因而合并变成了1900

合并内存消耗

不使用额外的内存合并两个run是很困难的,有这种原地合并算法,可是效率过低,做为trade-off,可使用少许的内存空间来达到合并的目的。

好比有两个相邻的run一前一后分别是AB,若是A的长度比较小,那么就把A复制到临时内存里面,而后从小到大开始合并排序放入AB原来的空间里面不影响原来的数据的使用。若是B的长度比较小,B就会被放到临时内存里面,而后从大到小开始合并。

另外还有一个优化的点在于能够用二分法找到B[0]A中应该插入的位置i以及A[A.length-1]B中应该插入的位置j,这样在i以前j以后的数据均可以放在原地不须要变化,进一步减少了AB的大小,同时也是缩减了临时空间的大小。

merge-memory

加速合并

在归并排序算法中合并两个数组就是一一比较每一个元素,把较小的放到相应的位置,而后比较下一个,这样有一个缺点就是若是A中若是有大量的元素A[i...j]是小于B中某一个元素B[k]的,程序仍然会持续的比较A[i...j]中的每个元素和B[k],增长合并过程当中的时间消耗。

为了优化合并的过程,Tim设定了一个阈值MIN_GALLOP,若是A中连续MIN_GALLOP个元素比B中某一个元素要小,那么就进入GALLOP模式,反之亦然。默认的MIN_GALLOP值是7。

GALLOP模式中,首先经过二分搜索找到A[0]B中的位置i0,把Bi0以前的元素直接放入合并的空间中,而后再在A中找到B[i0]所在的位置j0,把Aj0以前的元素直接放入合并空间中,如此循环直至在AB中每次找到的新的位置和原位置的差值是小于MIN_GALLOP的,这才中止而后继续进行一对一的比较。

gallop-mod

GALLOP模式

GALLOP搜索元素分为两个步骤,好比咱们想找到A中的元素xB中的位置

第一步是在B中找到合适的索引区间\((2^k-1,2^{k+1}-1)\)使得x在这个元素的范围内

第二步是在第一步找到的范围内经过二分搜索来找到对应的位置。

经过这种搜索方式搜索序列B最多须要\(2lgB\)次的比较,相比于直接进行二分搜索的\(lg(B+1)\)次比较,在数组长度比较短或者重复元素比较多的时候,这种搜索方式更加有优点。

这个搜索算法又叫作指数搜索(exponential search),在Peter McIlroy于1993年发明的一种乐观排序算法中首次提出的。

总结

总结一下上面的排序的过程:

  1. 若是长度小于64直接进行插入排序
  2. 首先遍历数组收集每一个元素根据特定的条件组成一个run
  3. 获得一个run以后会把他放入栈中
  4. 若是栈顶部几个的run符合合并条件,就会触发合并操做合并相邻的两个run留下一个run
  5. 合并操做会使用尽可能小的内存空间和GALLOP模式来加速合并

参考

Comparison between timsort and quicksort
This is the fastest sorting algorithm ever
TimSort
Timsort: The Fastest sorting algorithm for real-world problems
[Python-Dev] Sorting
Intro
TimSort

更多精彩内容请看个人我的博客

相关文章
相关标签/搜索