数据结构中的树(二叉树、二叉搜索树、AVL树)

数据结构动图展现网站html

树的概念

树(英语:tree)是一种抽象数据类型(ADT)或是实做这种抽象数据类型的数据结构,用来模拟具备树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具备层次关系的集合。把它叫作“树”是由于它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具备如下的特色:mysql

  • 每一个节点有零个或多个子节点;git

  • 没有父节点的节点称为根节点;github

  • 每个非根节点有且只有一个父节点;算法

  • 除了根节点外,每一个子节点能够分为多个不相交的子树;sql

  • 节点的度:一个节点含有的子树的个数称为该节点的度;数据库

  • 树的度:一棵树中,最大的节点的度称为树的度;数据结构

  • 叶节点或终端节点:度为零的节点;框架

  • 父亲节点或父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点;机器学习

  • 孩子节点或子节点:一个节点含有的子树的根节点称为该节点的子节点;

  • 兄弟节点:具备相同父节点的节点互称为兄弟节点;

  • 节点的层次:从根开始定义起,根为第1层,根的子节点为第2层,以此类推;

  • 树的高度或深度:树中节点的最大层次;

  • 堂兄弟节点:父节点在同一层的节点互为堂兄弟;

  • 节点的祖先:从根到该节点所经分支上的全部节点;

  • 子孙:以某节点为根的子树中任一节点都称为该节点的子孙。

  • 森林:由m(m>=0)棵互不相交的树的集合称为森林;

二叉树

每一个节点最多含有两个子树的树称为二叉树

  • 平衡二叉树(AVG树): 当且仅当任何节点的两棵子树的高度差不大于1的二叉树
  • 彻底二叉树: 对于一颗二叉树,假设其深度为d(d>1)。除了第d层外,其它各层的节点数目均已达最大值,且第d层全部节点从左向右连续地紧密排列,这样的二叉树被称为彻底二叉树,其中满二叉树的定义是全部叶节点都在最底层的彻底二叉树;
  • 排序二叉树: (二叉查找数 Binary Search Tree), 也称二叉搜索树,有序二叉树,任意一个结点左边子节点的数据要比根结点的值小,右边子节点的数据要比根结点的值大。可是若是二叉树是单增的状况会退化成链表

二叉树的遍历

  1. 深度优先遍历
  • 先序遍历 preorder 在先序遍历中,咱们先访问根节点,而后递归使用先序遍历访问左子树,再递归使用先序遍历访问右子树 根节点->左子树->右子树
  • 中序遍历 inorder 在中序遍历中,咱们递归使用中序遍历访问左子树,而后访问根节点,最后再递归使用中序遍历访问右子树 左子树->根节点->右子树
  • 后序遍历 postorder 在后序遍历中,咱们先递归使用后序遍历访问左子树和右子树,最后访问根节点 左子树->右子树->根节点
    image.png)
  1. 广度优先遍历(层次遍历)

二叉树反推

若是已知中序和先序,或者中序和后序,能够肯定二叉树的结构

eg:
先序:A B C D E F
中序: C B A E D F

先序找根,中序定两边
先序遍历序列为ABCDEF,第一个字母是A被打印出来,就说明A是根结点的数据。
再由中序遍历序列是CBAEDF,能够知道C和B是A的左子树的结点,
E、D、F是A的右子树的结点

image.png

而后咱们看先序中的C和B,它的顺序是ABCDEF,B是在C的前面打印,因此B应该是A的左孩子,而C就只能是B的孩子,此时是左仍是右孩子还不肯定。再看中序序列是CBAEDF,C是在B的前面打印,这就说明C是B的左孩子,不然就是右孩子了

image.png

再看先序中的E、D、F,它的顺序是ABCDEF,那就意味着D是A结点的右孩子,E和F是D的子孙,注意,它们中有一个不必定是孩子,还有多是孙子的。再来看中序序列是CBAEDF,因为E在D的左侧,而F在右侧,因此能够肯定E是D的左孩子,F是D的右孩子

image.png

注:若是已经先序和后序没法判断二叉树结构

先序序列:ABC

后序序列:CBA

咱们能够肯定A必定是根结点,但接下来,咱们没法知道,哪一个结点是左子树,哪一个是右子树

image.png

二叉查找树(二叉搜索树)

节点的左子树只包含小于当前节点的数。

节点的右子树只包含大于当前节点的数。

全部左子树和右子树自身必须也是二叉搜索树

Python实现二叉查找树

参考如下两篇文章(最好是本身画图容易理解):

二叉平衡树

Python实现平衡二叉树 删除和添加调整的是最小不平衡子树

平衡二叉树 (Height-Balanced Binary Search Tree) 是一种二叉排序树,

其中每个结点的左子树和右子树的高度差不超过1(小于等于1)

二叉树的平衡因子 (Balance Factor) 等于该结点的左子树深度减去右子树深度的值称为平衡因子。平衡因子只多是[-1,0,1]。距离插入结点最近的,且平衡因子的绝对值大于1的结点为根的子树,称为最小不平衡子树

平衡二叉树就是二叉树的构建过程当中,每当插入一个结点,看是否是由于树的插入破坏了树的平衡性,如果,则找出最小不平衡树。在保持二叉树特性的前提下,调整最小不平衡子树中各个结点之间的连接关系,进行相应的旋转,使之成为新的平衡子树。简记为: 步步调整,步步平衡

参考如下两篇文章(最好是本身画图):

注:第一篇文章中针对左右失衡和右左失衡的处理图片和代码中有误,可是主要是看我的理解,做者能够只对根节点进行失衡处理,而我这边是按照第二篇文章说的,调整最小不平衡子树

对于其中添加元素的递归代码的理解:

霍夫曼树

(用于信息编码):带权路径最短的二叉树称为哈夫曼树或最优二叉树;
应用: 压缩文件

B树(B-Tree)

一种对读写操做进行优化的自平衡的二叉查找树,可以保持数据有序,拥有多余两个子树。B树是多路平衡查找树,2阶B树才是平衡二叉树
应用: 数据库存储

M阶的Btree的几个重要特性:

  1. 节点最多含有m棵字树(指针), m-1个关键字(存的数据,空间)(m > 2)
  2. 除根节点和叶子节点外,其余每一个节点至少有ceil(m / 2)个子节点,(ceil为上取整)
  3. 若根节点不是叶子节点,则至少有两棵子树

M阶: 这个由磁盘的页大小决定,页内存是4KB, 好处是一次性取数据就能够取出这个节点即这个页数据,不会形成IO读取的浪费。

img

B+Tree

  1. 每一个节点最多有m个子节点
  2. 除根节点外,每一个节点至少有m/2个子节点,注意若是结果除不尽,就取上蒸,如 5/2=3
  3. 根节点要么是空,要么是独根,不然至少有2个子节点
  4. 有k个子节点的节点必有k个关键字
  5. 叶节点的高度一致

image.png

img

适合大数据的磁盘索引,经典的MySQL,全部的数据都存在叶子节点,其余上层节点都是索引,增长了系统的稳定性以及遍历查找效率。叶子节点之间是双向指针,这一点就有利于范围查找。

MyISAM存储引擎的数据结构(非汇集)

索引文件和数据文件是分离的,非汇集(非聚族)

image.png

.MYD 存储数据的文件

.MYI 存储索引的文件

.FRM 表结构文件,管理索引和数据的框架

InnoDB索引的实现(汇集)

  • 表数据自己就是按B+Tree组织的一个索引结构文件
  • 汇集索引-叶子节点包含了完整的数据记录,索引跟数据合并,MySQL默认节点大小为16KB,因此说高度为3的B+树就可以存储千万级别的数据。
  • 为何InnoDB表必须有主键,而且推荐使用整形的自增主键?
    • 整形存储占用比较少,且比较容易,若是是uuid字符串还须要进行转换且占用空间大
    • 使用自增是为了不二叉树的频繁自平衡分裂,自增主键,只须要每次都忘后面增长便可,不会形成大范围的性能开销
  • 为何非主键索引结构叶子节点存储的是主键值?(一直性)

image.png

联合索引的底层存储结构

image.png

  1. B站-100分钟讲透MySQL索引底层原理

  2. MySQL底层索引算法

  3. 为何 MySQL 使用 B+ 树

  4. MYSQL-B+TREE索引原理-详细解释了SQL语句的执行过程

常见树的应用场景

  1. xml,html等,那么编写这些东西的解析器的时候,不可避免用到树
  2. 路由协议就是使用了树的算法
  3. mysql数据库索引
  4. 文件系统的目录结构
  5. 因此不少经典的AI算法其实都是树搜索,此外机器学习中的decision tree也是树结构

image.png

相关文章
相关标签/搜索