查找算法（顺序查找、二分法查找、二叉树查找、hash查找）

时间 2019-11-22

原文原文链接

查找功能是数据处理的一个基本功能。数据查找并不复杂，可是如何实现数据又快又好地查找呢？前人在实践中积累的一些方法，值得咱们好好学些一下。咱们假定查找的数据惟一存在，数组中没有重复的数据存在。算法

（1）顺序查找（普通的数据查找）
　　设想有一个1M的数据，咱们如何在里面找到咱们想要的那个数据。此时数据自己没有特征，因此咱们须要的那个数据可能出如今数组的各个位置，可能在数据的开头位置，也可能在数据的结束位置。这种性质要求咱们必须对数据进行遍历以后才能获取到对应的数据。数组

int find(int *arr,int num,int value)  
{  
    if(NULL == arr || 0 == num)  
        return -1;  
  
    for(int index = 0;index < num;index++){  
        if(value == arr[index])  
            return index;  
    }  
    return -1;  
}

分析与总结：
　　因为咱们不清楚这个数据判断究竟须要多少次。可是，咱们知道，这样一个数据查找最少须要1次，那么最多须要n次，平均下来能够当作是（1+n）/2，差很少是n的一半。咱们把这种比较次数和n成正比的算法时间复杂度记为o（n）。数据结构

(2)二分法查找
　　上面的数据没有任何特征，这致使咱们的数据排列地杂乱无章。试想一下，若是数据排列地很是整齐，那结果会是什么样的呢？就像在生活中，若是平时不注意收拾整齐，那么找东西的时候很是麻烦，效率很低；可是一旦东西放的位置固定下来，全部东西都归类放好，那么结果就不同了，咱们就会造成思惟定势，这样查找东西的效率就会很是高。
　　那么，对一个有序的数组，咱们应该怎么查找呢？二分法就是最好的方法。架构

int binary_find(int *arr,int num,int value)  
{  
    if(NULL == arr || 0 == num)  
        return -1;  
      
    int start = 0;  
    int end = num - 1;  
  
    while(start <= end){  
         int middle = start +((end - start)  >> 1);  
         if(value == arr[middle])  
             return middle;  
         else if(value > arr[middle])  
             start = middle + 1;  
         else  
             end = middle - 1;  
     }  
     return -1;  
}

分析：
上面咱们说到普通的数据查找算法复杂度是o（n），那么咱们能够用上面同样的方法判断一下算法复杂度。这种方法最少是1次，那么最多须要多少次呢？咱们发现最多须要log（n+1）/log（2）便可。你们能够找个例子本身算一下，好比说7个数据，咱们发现最多3次；若是是15个数据呢，那么最多4次，以此类推。明显，这种数据查找的效率要比前面的查找方法高不少。优势：效率高，时间复杂度为O(logN)；缺点：数据要是有序的，顺序存储。ide

（3）二叉树查找
　　上面的查找是创建在连续内存基础之上的，那么若是是指针类型的数据呢？怎么办呢？那么就须要引入排序二叉树了。
　　函数

　　排序二叉树的定义很简单：oop

　　（1）非叶子节点至少一边的分支非NULL；学习

　　（2）叶子节点左右分支都为NULL；优化

　　（3）每个节点记录一个数据，同时左分支的数据都小于右分支的数据。能够看看下面的定义：spa

typedef struct _NODE{  
    int data;  
    struct _NODE* left;  
    struct _NODE* right;  
}NODE;  

代码：
NODE* binarytree_find(NODE* pNode,int value)  
{  
    if(NULL == pNode)  
        return NULL;  
  
    if(value == pNode->data)  
        return pNode;  
    else if(data < pNode->data)  
        return binarytree_find(pNode->left,value);  
     else  
         return binarytree_find(pNode->right,value);  
}

（4）hash排序
　　方法（2）、（3）都是创建在彻底排序的基础上，那么在没有创建折中基础上的排序呢？就是hash表。
　　哈希表的定义以下：

　　1）每一个数据按照某种聚类运算归到某一大类，而后全部数据链成一个链表；

　　2）全部链表的头指针造成一个指针数组。这种方法由于不须要完整排序，因此在处理中等规模数据的时候颇有效。其中节点的定义以下：

typedef struct _NODE  
{  
    int data;  
    struct _NODE* next;  
}NODE;  

查找代码：
NODE* hash_find(NODE* arr[],int mod,int value)  
{  
    int index= data % mod;  
    if(NULL == arr[index])  
        return NULL;  
      
    NODE* pNode = arr[index];  
    while(pNode){  
        if(value == pNode->data)  
             return pNode;  
         pNode = pNode->next;  
     }  
     return pNode;  
}

分析：
hash表由于不须要排序，只进行简单的归类，在数据查找的时候特别方便。查找时间的大小取决于mod的大小。mod越小，那么hash查找就越接近于普通查找；那么hash越大呢，那么hash一次查找成功的几率就大大增长。

其它算法说明：

算法一：快速排序算法
　　快速排序是由东尼·霍尔所发展的一种排序算法。在平均情况下，排序 n 个项目要Ο(n log n)次比较。在最坏情况下则须要Ο(n2)次比较，但这种情况并不常见。事实上，快速排序一般明显比其余Ο(n log n) 算法更快，由于它的内部循环（inner loop）能够在大部分的架构上颇有效率地被实现出来。
　　快速排序使用分治法（Divide and conquer）策略来把一个串行（list）分为两个子串行（sub-lists）。
　　算法步骤：
　　（1）从数列中挑出一个元素，称为 “基准”（pivot），
　　（2）从新排序数列，全部元素比基准值小的摆放在基准前面，全部元素比基准值大的摆在基准的后面（相同的数能够到任一边）。在这个分区退出以后，该基准就处于数列的中间位置。这个称为分区（partition）操做。
　　（3）递归地（recursive）把小于基准值元素的子数列和大于基准值元素的子数列排序。
递归的最底部情形，是数列的大小是零或一，也就是永远都已经被排序好了。虽然一直递归下去，可是这个算法总会退出，由于在每次的迭代（iteration）中，它至少会把一个元素摆到它最后的位置去。

算法二：堆排序算法
　　堆排序（Heapsort）是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似彻底二叉树的结构，并同时知足堆积的性质：即子结点的键值或索引老是小于（或者大于）它的父节点。
　　堆排序的平均时间复杂度为Ο(nlogn) 。
　　算法步骤：

　　（1）建立一个堆H[0..n-1]
　　（2）把堆首（最大值）和堆尾互换
　　（3）把堆的尺寸缩小1，并调用shift_down(0),目的是把新的数组顶端数据调整到相应位置
　　（4）重复步骤2，直到堆的尺寸为1

算法三：归并排序
　　归并排序（Merge sort，台湾译做：合并排序）是创建在归并操做上的一种有效的排序算法。该算法是采用分治法（Divide and Conquer）的一个很是典型的应用。
　　算法步骤：
　　（1）申请空间，使其大小为两个已经排序序列之和，该空间用来存放合并后的序列
　　（2）设定两个指针，最初位置分别为两个已经排序序列的起始位置
　　（3）比较两个指针所指向的元素，选择相对小的元素放入到合并空间，并移动指针到下一位置
　　（4）重复步骤3直到某一指针达到序列尾
　　（5）将另外一序列剩下的全部元素直接复制到合并序列尾

算法四：二分查找算法
　　二分查找算法是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始，若是中间元素正好是要查找的元素，则搜素过程结束；若是某一特定元素大于或者小于中间元素，则在数组大于或小于中间元素的那一半中查找，并且跟开始同样从中间元素开始比较。若是在某一步骤数组为空，则表明找不到。这种搜索算法每一次比较都使搜索范围缩小一半。折半搜索每次把搜索区域减小一半，时间复杂度为Ο(logn) 。

算法五：BFPRT(线性查找算法)
　　BFPRT算法解决的问题十分经典，即从某n个元素的序列中选出第k大（第k小）的元素，经过巧妙的分析，BFPRT能够保证在最坏状况下仍为线性时间复杂度。该算法的思想与快速排序思想类似，固然，为使得算法在最坏状况下，依然能达到o(n)的时间复杂度，五位算法做者作了精妙的处理。
　　算法步骤：
　　（1）将n个元素每5个一组，分红n/5(上界)组。
　　（2）取出每一组的中位数，任意排序方法，好比插入排序。
　　（3）递归的调用selection算法查找上一步中全部中位数的中位数，设为x，偶数个中位数的状况下设定为选取中间小的一个。
　　（4）用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。
　　（5）若i==k，返回x；若i<k，在小于x的元素中递归查找第i小的元素；若i>k，在大于x的元素中递归查找第i-k小的元素。
　　终止条件：n=1时，返回的便是i小元素。
　　详细介绍：
　　寻找最小(最大)的k个数

算法六：DFS（深度优先搜索）
　　深度优先搜索算法（Depth-First-Search），是搜索算法的一种。它沿着树的深度遍历树的节点，尽量深的搜索树的分支。当节点v的全部边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的全部节点为止。若是还存在未被发现的节点，则选择其中一个做为源节点并重复以上过程，整个进程反复进行直到全部节点都被访问为止。DFS属于盲目搜索。
　　深度优先搜索是图论中的经典算法，利用深度优先搜索算法能够产生目标图的相应拓扑排序表，利用拓扑排序表能够方便的解决不少相关的图论问题，如最大路径问题等等。通常用堆数据结构来辅助实现DFS算法。
　　深度优先遍历图算法步骤：
　　（1）访问顶点v；
　　（2）依次从v的未被访问的邻接点出发，对图进行深度优先遍历；直至图中和v有路径相通的顶点都被访问；
　　（3）若此时图中尚有顶点未被访问，则从一个未被访问的顶点出发，从新进行深度优先遍历，直到图中全部顶点均被访问过为止。
　　上述描述可能比较抽象，举个实例：
　　DFS 在访问图中某一块儿始顶点 v 后，由 v 出发，访问它的任一邻接顶点 w1；再从 w1 出发，访问与 w1邻接但尚未访问过的顶点 w2；而后再从 w2 出发，进行相似的访问，… 如此进行下去，直至到达全部的邻接顶点都被访问过的顶点 u 为止。
　　接着，退回一步，退到前一次刚访问过的顶点，看是否还有其它没有被访问的邻接顶点。若是有，则访问此顶点，以后再今后顶点出发，进行与前述相似的访问；若是没有，就再退回一步进行搜索。重复上述过程，直到连通图中全部顶点都被访问过为止。

算法七：BFS(广度优先搜索)
　　广度优先搜索算法（Breadth-First-Search），是一种图形搜索算法。简单的说，BFS是从根节点开始，沿着树(图)的宽度遍历树(图)的节点。若是全部节点均被访问，则算法停止。BFS一样属于盲目搜索。通常用队列数据结构来辅助实现BFS算法。
　　算法步骤：
　　（1）首先将根节点放入队列中。
　　（2）从队列中取出第一个节点，并检验它是否为目标。
　　　　若是找到目标，则结束搜寻并回传结果。
　　　　不然将它全部还没有检验过的直接子节点加入队列中。
　　（3）若队列为空，表示整张图都检查过了——亦即图中没有欲搜寻的目标。结束搜寻并回传“找不到目标”。
　　（4）重复步骤2。

算法八：Dijkstra算法
　　戴克斯特拉算法（Dijkstra’s algorithm）是由荷兰计算机科学家艾兹赫尔·戴克斯特拉提出。迪科斯彻算法使用了广度优先搜索解决非负权有向图的单源最短路径问题，算法最终获得一个最短路径树。该算法经常使用于路由算法或者做为其余图算法的一个子模块。
　　该算法的输入包含了一个有权重的有向图 G，以及G中的一个来源顶点 S。咱们以 V 表示 G 中全部顶点的集合。每个图中的边，都是两个顶点所造成的有序元素对。(u, v) 表示从顶点 u 到 v 有路径相连。咱们以 E 表示G中全部边的集合，而边的权重则由权重函数 w: E → [0, ∞] 定义。所以，w(u, v) 就是从顶点 u 到顶点 v 的非负权重（weight）。边的权重能够想像成两个顶点之间的距离。任两点间路径的权重，就是该路径上全部边的权重总和。已知有 V 中有顶点 s 及 t，Dijkstra 算法能够找到 s 到 t的最低权重路径(例如，最短路径)。这个算法也能够在一个图中，找到从一个顶点 s 到任何其余顶点的最短路径。对于不含负权的有向图，Dijkstra算法是目前已知的最快的单源最短路径算法。
　　算法步骤：
　　（1）初始时令 S={V0},T={其他顶点}，T中顶点对应的距离值
　　　　若存在<V0,Vi>，d(V0,Vi)为<V0,Vi>弧上的权值
　　　　若不存在<V0,Vi>，d(V0,Vi)为∞
　　（2）从T中选取一个其距离值为最小的顶点W且不在S中，加入S
　　（3）对其他T中顶点的距离值进行修改：若加进W做中间顶点，从V0到Vi的距离值缩短，则修改此距离值
　　重复上述步骤二、3，直到S中包含全部顶点，即W=Vi为止

算法九：动态规划算法
　　动态规划（Dynamic programming）是一种在数学、计算机科学和经济学中使用的，经过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划经常适用于有重叠子问题和最优子结构性质的问题，动态规划方法所耗时间每每远少于朴素解法。
　　动态规划背后的基本思想很是简单。大体上，若要解一个给定问题，咱们须要解其不一样部分（即子问题），再合并子问题的解以得出原问题的解。一般许多子问题很是类似，为此动态规划法试图仅仅解决每一个子问题一次，从而减小计算量：一旦某个给定子问题的解已经算出，则将其记忆化存储，以便下次须要同一个子问题解之时直接查表。这种作法在重复子问题的数目关于输入的规模呈指数增加时特别有用。
　　关于动态规划最经典的问题当属背包问题。
　　算法步骤：
　　（1）最优子结构性质。若是问题的最优解所包含的子问题的解也是最优的，咱们就称该问题具备最优子结构性质（即知足最优化原理）。最优子结构性质为动态规划算法解决问题提供了重要线索。
　　（2）子问题重叠性质。子问题重叠性质是指在用递归算法自顶向下对问题进行求解时，每次产生的子问题并不老是新问题，有些子问题会被重复计算屡次。动态规划算法正是利用了这种子问题的重叠性质，对每个子问题只计算一次，而后将其计算结果保存在一个表格中，当再次须要计算已经计算过的子问题时，只是在表格中简单地查看一下结果，从而得到较高的效率。

算法十：朴素贝叶斯分类算法　　朴素贝叶斯分类算法是一种基于贝叶斯定理的简单几率分类算法。贝叶斯分类的基础是几率推理，就是在各类条件的存在不肯定，仅知其出现几率的状况下，如何完成推理和决策任务。几率推理是与肯定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的，即假设样本每一个特征与其余特征都不相关。　　朴素贝叶斯分类器依靠精确的天然几率模型，在有监督学习的样本集中能获取得很是好的分类效果。在许多实际应用中，朴素贝叶斯模型参数估计使用最大似然估计方法，换言之朴素贝叶斯模型能工做并无用到贝叶斯几率或者任何贝叶斯模型。　　尽管是带着这些朴素思想和过于简单化的假设，但朴素贝叶斯分类器在不少复杂的现实情形中仍可以取得至关好的效果。