找工做——数据结构

时间 2019-11-11

标签数据结构繁體版

原文原文链接

静态查找表：只作查找操做的查找表算法

动态查找表：在查找过程当中同时插入查找表中不存在的数据元素，或者从查找表中删除已经存在的某个数据元素。数据库

若是查找的数据集是有序线性表，而且是顺序存储的，查找可使用折半、插值、斐波那契等查找算法，由于有序，在插入和删除操做上，就须要耗费大量的时间。数据结构

二叉排序树函数

　　定义：性能

　　又称为二叉查找树，它或者是一颗空树或者是具备下列性质的二叉树。.net

若它的左子树不为空，则左子树上全部结点的值均小于它的根节点的值；
若它的右子树部位空，则右子树上全部结点的值均大于它的根节点的值；
它的左右子树也分别为二叉排序树。

　　构建过程指针

　　删除操做：blog

　　　　若是是叶节点直接删除；排序

　　　　若是要删除的只有左子树或右子树，那就将该结点删除后，将它的左子树或右子树整个移动到删除的结点的位置便可；索引

　　　　若是要删除的是左右子树都有的结点，找到须要删除的结点p的中序遍历的直接前驱（或直接后继），用s来替换结点p，而后再删除此结点s。

　　总结：对于二叉排序树的查找，走的就是从根结点到要查找的结点的路径，其比较次数等于给定值的结点在二叉排序树的层数，所以二叉排序树的查找性能取决于二叉排序树的形状。咱们但愿，二叉排序树是比较平衡的，即其深度与彻底二叉树相同，则查找的时间复杂度为logN，近似于折半查找。

平衡二叉树（AVL）：是一种二叉排序树，其中每个结点的左子树和右子树的高度差之多等于1.

　　BF（Balance Factor）平衡因子：二叉树上结点的左子树深度减去右子树深度的值成为平衡因子。

　　最小不平衡子树：距离插入结点最近的，且平衡因子的绝对值大于1的结点为根的子树。

　　平衡二叉树的构建思想就是在构建二叉排序树的过程当中，每当插入一个结点时，先检查是否因插入而破坏了树的平衡性，如果，则找出最小不平衡子树。在保持二叉排序树特性的前提下，调整最小不平衡子树中各结点之间的连接关系，进行相应的旋转，使之成为新的平衡子树。

BF为正值，右旋
BF为负值，左旋
BF一正一负，先将符号统一后，再旋转一次

红黑树：http://blog.csdn.net/eric491179912/article/details/6179908

前面讨论的数据结构，处理数据都是在内存中，所以考虑的都是内存中的运算时间复杂度。但若是要操做的数据集很是大，如数据库中的上千万条记录，硬盘中的上万个文件，在这种状况下，对数据的处理须要不断从硬盘等存储设备中调入或调出内存页面。一旦涉及到这样的外部存储设备，关于时间复杂度的计算就会发生变化，访问该集合元素的时间已经不只仅是寻找该元素所需比较次数的函数，咱们必须考虑对硬盘等外部存储设备的访问时间以及将会对该设备作出多少次单独访问。

一个结点只能存储一个元素，在元素很是多的时候，就使得要么树的度很是大要么树的高度很是大，甚至都必须足够大才行。这样就使得内存存取外存的次数很是多，这显然成了时间效率的瓶颈，这迫使咱们要打破每个结点只能存储一个元素的限制，为此引入了多路查找树。

多路查找树：其每个结点的孩子能够多于两个，且每个结点处能够存储多个元素。因为它是查找树，全部元素之间存在某种特定的排序关系。它的四种特殊形式：2-3树、2-3-4树、B树、B+树。

2-3树是这样一颗多路查找树：其中的每个结点都具备两个仍是（称它为2结点）或三个孩子（称它为3结点）。一个2结点包含一个元素和两个孩子（或没有孩子），且与二叉排序树相似，左子树包含的元素小于该元素，右子树包含的元素大于该元素。与二叉排序树不一样的是，这个2结点要么没有孩子，要么就两个不能只有一个。一个2结点包含一小一大两个元素和三个孩子。而且2-3树种全部的叶子都在同一层上。

B树：是一种平衡的多路查找树，2-3和2-3-4树都是B树的特例。结点最大的孩子数成为B树的阶，所以2-3树是3阶B数。

若是在内外存交换数据频繁，会形成时间效率上的瓶颈，那么B树结构如何作到减小次数？

　　咱们的外村，好比硬盘，是将全部的信息分割成相等大小的页面，每次硬盘读写的都是一个或多个完整的页面，对一个硬盘来讲，一页的长度多是211到214个字节。在一个典型的B树应用中，要处理的硬盘数据量很大，所以没法一次所有装入内存，所以咱们会对B树进行调整，是的B树的阶数与硬盘存储的页面大小相匹配。好比一颗B树的阶为1001（即一个结点包含1000个关键字），高度为2，它能够存储超过10亿个关键字，咱们只要让根节点持久的保存在内存中，那么在这棵树上，需找某一个关键字至多只须要两次硬盘读取便可。经过这种方式在内存有限的状况下，每一次磁盘的访问咱们均可以得到最大数量的数据，因为B树没结点可能具备比二叉树多得多的元素，因此与二叉树的操做不一样，他们减小了必须访问结点和数据块的数量，从而提升了性能，B树的数据结构就是为内外存的数据交互准备的。

为了解决全部元素遍历等基本问题，咱们在B树结构的基础上，加上了新的元素组织方式，就是B+树。

B+树:在B树种每个元素在该树种只出现一次，有可能在叶子节点上，也有可能在分支节点上，而在B+树中，出如今分支结点中的元素会被当作他们在该分支结点位置的中序后继者中再次列出。另外每个叶子节点都会保存一个指向后一叶子节点的指针。

这样数据结构的好处就是若是随机查找，就从根节点出发，与B树的查找方式同样，只不过及时在分支节点找到了待查找的关键字也只是用来索引的，不能提供实际记录的访问，仍是需啊哟到达包含次关键字的终端节点。若是是从小到大查找关键字，咱们能够从最左侧的叶子节点出发，不通过分支结点，而是沿着指向下一叶子的指针就能够遍历全部的关键字。