初学算法-快速排序与线性时间选择（Deterministic Selection）的C++实现

时间 2019-11-17

标签初学算法快速排序线性时间选择 deterministic selection c++ 实现栏目应用数学繁體版

原文原文链接

快速排序算法其实只作了两件事：寻找分割点（pivot）和交换数据。html

所谓寻找分割点，既找到一个预计会在中间位置附近的点，固然尽可能越接近中点越好。
ios

所谓交换数据，就是把比这个分割点小的数据，最终都放在分割点左边，比它大的都放在右边。算法

设要排序的数组是A[left]……A[right]，首先任意选取一个数据（通常算法：使用随机数选取一个区间内的数。文艺算法：取A[left]、A[right]和A[rand()]的中值。二笔算法：选用数组的第一个数）做为关键数据，而后将全部比它小的数都放到它前面，全部比它大的数都放到它后面，这个过程称为一趟快速排序。值得注意的是，快速排序不是一种稳定的排序算法，也就是说，多个相同的值的相对位置也许会在算法结束时产生变更。数组

快速排序的具体算法是：ui

1）设置两个变量i、j，排序开始的时候：i=left，j=left+1；spa

2）取关键数据和A[left]交换，赋值给key，即key=A[left]；code

3）从j开始向后搜索，即由前开始向后搜索(j++)，找到第一个小于key的A[j]，将A[++i]和A[j]互换。orm

4）重复第3步，直到 j>right，此时循环结束htm

5）此时令 int q=i；在A[left]...A[q-1]和A[q+1]...A[right]上重复1-4过程直到递归结束。
排序

这样，咱们就能够将它兑现为代码：

/**
 * The Quick Sort Algorithm by C++
 * Average Time Cost: nlogn
 * Author: Zheng Chen / Arc001
 * Copyright 2015 Xi'an University of Posts & Telecommunications
 */
#include <iostream>
#include <ctime>
#include <cstdlib>
#include <fstream>
using namespace std;
long long ans = 0;

void swap(int &a, int &b)
{
    int c = a;
    a = b;
    b = c;
}

int partition(int A[],int l,int r)
{
    int t = rand()%(r-l);
	int x = A[l+t];
	int i = l;
	int j = l+1;

	swap(A[l+t],A[l]);

	for(;j<=r;j++){
		if(A[j]<=x){
			++i;
			swap(A[i],A[j]);
		}
	}

	swap(A[i],A[l]);
	return i;
}


void Quick_Sort(int A[],int l,int r)
{
    if(l<r){
        int q = partition(A,l,r);
        Quick_Sort(A,l,q-1);
        Quick_Sort(A,q+1,r);
    }
}

int main()
{
    /*int A[] = {7,6,5,4,3,2,1};
    Quick_Sort(A,0,6);
    for(int i=0;i<7;i++)
    	cout<<A[i]<<' ';
    */
    fstream in;
    in.open("QuickSort.txt");
    int *A = new int[10000];
    int i = 0;
    for(i=0;i<10000;i++)
        in>>A[i];
    Quick_Sort(A,0,9999);
    for(i=0;i<10;i++)
        cout<<A[i]<<' ';
    return 0;
}

如今咱们来看一个问题：如何找出数组A中的第 k 小的元素？ (1<=k<=n)

在笔者看来，至少有如下三种方法：

好比咱们能够分为两种状况：k>n/2时，问题化为找到第 n-k 大的元素。咱们能够构造一个长度为 n-k 的数组，而后维持这个数组的单调性。这样每个元素均可以进来数组“打擂”，找到合适的位置。到了最后咱们取数组的首元素或者末元素（具体要看聪明的你选用递增仍是递减），就是答案了。

当k<=n/2时，也是一样的道理。

很容易看到，这种算法的时间复杂度在O(n^2)，实在没法使人满意。

可是，Can we do better?

是的，咱们能够经过维持一个堆来加速，因为堆的优秀的特性，咱们能够把时间复杂度下降到O(nlogn)

咱们还能够先将这些元素排序，再取出A[k-1]便可，时间复杂度也是O(nlogn)。

仍是那个问题，Can we do better?

能够。

还记得快速排序的算法吗？咱们进行一次partition操做后，咱们的分割点(pivot)元素必定“归位”了。咱们再比较分割点元素和待查找元素的大小，就能够舍去左边或右边部分，只看剩下那部分。能够证实，这种算法的平均时间复杂度为Θ(n)。

咱们能够很容易的将其兑现为代码：

/**
 * Find out the n th smallest number in an array.
 * Coursera : Algorithms: Design and Analysis, Part 1 by Tim Roughgarden
 * Average Time Cost : θ(n)
 * Worst Time Cost: O(n^2) when every time the smallest number was chosen.
 *
 * Author: Zheng Chen / Arclabs001
 * Copyright 2015 Xi'an University of Posts & Telecommunications
 */
#include <iostream>
#include <ctime>
#include <cstdlib>
using namespace std;

void swap(int &a, int &b)
{
    int c = a;
    a = b;
    b = c;
}

int partition(int A[],int l,int r)
{
    int t = rand()%(r-l);
    int x = A[l+t];
    int i = l;
    int j = l+1;

    swap(A[l+t],A[l]);

    for(;j<=r;j++){
	if(A[j]<=x){
	    ++i;
	    swap(A[i],A[j]);
	}
    }

    swap(A[i],A[l]);
    return i;
}

int Quick_Sort(int A[],int l,int r, int target)
{
    if(target > r)
        return -1;
    if(l<r){
        int q = partition(A,l,r);
        if(q==target)
        	return A[q];
        else if(q>target)
        	return Quick_Sort(A,l,q-1,target);
        else
        	return Quick_Sort(A,q+1,r,target);
    }
    else return A[l];
}
int main()
{
    int A[] = {3,4,6,1,5,9,2,8,7};
    int n;
    for(int i=0;i<9;i++)
        cout<<A[i]<<' ';
    cout<<endl;
    cin>>n;

    cout<<"The "<<n<<"th largest number in the array is: "<<Quick_Sort(A,0,8,n-1);
    return 0;
}

进阶篇：

可是，这种实现也有缺点：可能咱们就是点背，每次选的元素，不是待排序元素的最小值、就是最大值。这样咱们每次只能排除一个元素，而每次操做的代价都是O(n)，所以算法的最坏时间复杂度可能达到O(n^2)。

仍是那个问题，Can we do better?

Yes.

咱们若是能让分割点在在数组中至少为 2n/3 大，且不大于 n/3 个元素（就是排序后的位置应该在中间的1/3），这样每次咱们至少能够排除 n/3 个元素。T(n) <= T(2n/3) + O(n)，解得 T(n) = O(n)。

那么，咱们如何作到这点呢？

这里有一个解法：

1.咱们准备 upper(n/5) 个长度为5的数组，把A中全部元素“装进去”。

2.使用低级排序把它们分别排序，因为每次只有5个元素，所以低级排序更快。而后取每组第三个元素（中间元素）放到另外一个数组Sub中。

3.对长度为n/5的Sub数组，调用主算法查找第n/10大的数。

能够证实，尽管可能看起来有些复杂，可是每次确实只须要O(n)的时间代价便可查找到适合的分割点、并至少能舍弃 n/3 个必定不符合条件的元素，达到咱们对时间复杂度的需求。

固然不能忘了代码实现：

/**
 * Deterministic Selection Algorithm in C++
 * Below is the pseudo-code
 * Coursera : Algorithms: Design and Analysis, Part 1 by Tim Roughgarden
 * Time cost: O(n)
 * Author: Zheng Chen / Arclabs001
 * Copyright 2015 Xi'an University of Posts & Telecommunications
 */
#include <iostream>

using namespace std;

int Quick_Sort(int A[],int l,int r, int target);

void swap(int &a, int &b)
{
    int c = a;
    a = b;
    b = c;
}

void insersion_sort(int A[] , int len)
{
	for(int j = 1; j<len; j++){
		int i = j -1;
		int key = A[j];
		while(i>0 && A[i] > key){
			A[i+1] = A[i];
			i--;
		}
		A[i+1] = key;
	}
}

int ChoosePivot(int A[], int l, int r)
{
	int size = r-l+1;
	int sub_num = size/5 ;
	int i, j, k=0;
	int tmp[sub_num][5];
	int Sub[sub_num];

	for(i=0; i<sub_num; i++){
		for(j=0; i<5; j++)
			tmp[i][j] = A[k++];
		Sub[i] = Quick_Sort(tmp[i], 0, 4, 2);
	}

	return Quick_Sort(Sub , 0, sub_num-1, sub_num/2);
}

int partition(int A[],int l,int r,int M)
{
	int x = A[M];
	int i = l;
	int j = l+1;

	swap(A[M],A[l]);

	for(;j<=r;j++){
		if(A[j]<=x){
			++i;
			swap(A[i],A[j]);
		}
	}

	swap(A[i],A[l]);
	return i;
}

int Quick_Sort(int A[],int l,int r, int target)
{
    if(target > r)
        return -1;
    if(l<r){
    	if( r-l+1 <10){
			int tmp[r-l+1];
			for(int i=l;i<r-l+1;i++)
				tmp[i] = A[i];
			insersion_sort( tmp , r-l+1 );
			return tmp[target];
		}

		int M = ChoosePivot(A,l,r);

        int q = partition(A,l,r,M);

        if(q==target)
        	return A[q];
        else if(q>target)
        	return Quick_Sort(A,l,q-1,target);
        else
        	return Quick_Sort(A,q+1,r,target);
    }
    else return A[l];
}

int main()
{
    int A[] = {3,4,6,1,5,9,2,8,7};
    int n;
    for(int i=0;i<9;i++)
        cout<<A[i]<<' ';
    cout<<endl;
    cin>>n;

    cout<<"The "<<n<<"th largest number in the array is: "<<Quick_Sort(A,0,8,n-1);
    return 0;
}
/**
 *  select(L,k)
    {
    if (L has 10 or fewer elements)
    {
        sort L
        return the element in the kth position
    }

    partition L into subsets S[i] of five elements each
        (there will be n/5 subsets total).

    for (i = 1 to n/5) do
        x[i] = select(S[i],3)

    M = select({x[i]}, n/10)

    partition L into L1<M, L2=M, L3>M
    if (k <= length(L1))
        return select(L1,k)
    else if (k > length(L1)+length(L2))
        return select(L3,k-length(L1)-length(L2))
    else return M
    }
 */

本文参考资料：

[1].Coursera : Algorithms: Design and Analysis, Part 1 by Tim Roughgarden (斯坦福大学算法课)

[2].《Introduction to Algorithms》 by Thomas H. Cormen，Charles E. Leiserson，Ronald L. Rivest，Clifford Stein. Chapter 7, Quick Sort and Chapter 9, Medians and Order Statics.

[3].ICS 161 : Design and Analysis of Algorithms. Lecture notes for Jan 30th, 1996. http://www.ics.uci.edu/~eppstein/161/960130.html

若是您以为本文对您有些许帮助，欢迎收藏和转发本文！