数据结构之二叉树（BinaryTree）

时间 2019-11-15

原文原文链接

导读

　　二叉树是一种很常见的数据结构，但要注意的是，二叉树并非树的特殊状况，二叉树与树是两种不同的数据结构。java

1、二叉树的定义

　　若是你知道树的定义（有限个结点组成的具备层次关系的集合），那么就很好理解二叉树了。定义：二叉树是n(n≥0)个结点的有限集，二叉树是每一个结点最多有两个子树的树结构，它由一个根结点及左子树和右子树组成。（这里的左子树和右子树也是二叉树）。编码

　　值得注意的是，二叉树和“度至多为2的有序树”几乎同样，但，二叉树不是树的特殊情形。具体分析以下

2、二叉树为什么不是特殊的树

　　一、二叉树与无序树不一样

　　二叉树的子树有左右之分，不能颠倒。无序树的子树无左右之分。

　　二、二叉树与有序树也不一样（关键）

　　当有序树有两个子树时，确实能够看作一颗二叉树，但当只有一个子树时，就没有了左右之分，如图所示：

3、二叉树的五种基本状态

4、二叉树相关术语

　　满二叉树：全部叶子结点所有集中在最后一层，这样的二叉树称为满二叉树。（注意：国内的定义是每一层的结点都达到最大值时才算是满二叉树；而国际定义为，不存在度为1的结点，即结点的度要么为2要么为0，这样的二叉树就称为满二叉树。这两种概念彻底不一样，既然在国内，咱们就默认第一种定义就好）。

　　彻底二叉树：若是将一颗深度为K的二叉树按从上到下、从左到右的顺序进行编号，若是各结点的编号与深度为K的满二叉树相同位置的编号彻底对应，那么这就是一颗彻底二叉树。如图所示：

5、二叉树的主要性质

　　二叉树的性质是基于它的结构而得来的，这些性质没必要死记，使用到再查询或者本身根据二叉树结构进行推理便可。

　　性质1：非空二叉树的叶子结点数等于双分支结点数加1。

　　证实：设二叉树的叶子结点数为X，单分支结点数为Y，双分支结点数为Z。则总结点数=X+Y+Z，总分支数=Y+2Z。

　　　　　因为二叉树除了根结点外其余结点都有惟一的分支指向它，因此总分支数=总结点数-1.。

　　　　　结合三个方程：总分支数=总结点数-1，即Y+2Z = X+Y+Z-1。化简获得X = Z + 1。即叶子结点数等于双分支结点数加1。

　　性质2：在二叉树的第i层上最多有2^i-1 个结点（i>=1）。

　　证实：二叉树结点最多的状况即为满二叉树的状况，因为是满二叉树，每一个结点都有两个孩子，因此下一层是上一层的2倍，构成了公比为2的等比数列，而第一层只有根结点，因此首项是1。因此二叉树的第i层上最多有2^i-1 个结点。

　　性质3：高度（或深度）为K的二叉树最多有2^k- 1个结点(K>=1）。

　　证实：本性质其实就是性质2中描述的等比数列的前项和的问题。

　　性质4：若对含 n 个结点的彻底二叉树从上到下且从左至右进行 1 至 n 的编号，则对彻底二叉树中任意一个编号为 i 的结点：

　　(1) 若 i=1，则该结点是二叉树的根，无双亲, 不然，编号为 [i/2] 的结点为其双亲结点;

　　(2) 若 2i>n，则该结点无左孩子，不然，编号为 2i 的结点为其左孩子结点；

　　(3) 若 2i+1>n，则该结点无右孩子结点，不然，编号为2i+1 的结点为其右孩子结点。

　　性质5：具备n个结点的彻底二叉树的深度为[log₂n]+1或者[log_2(n+1)]，其中[log₂n]+1是向下取整,[log_2(n+1)]是向上取整。

　 性质6：Catalan函数性质：给定n个结点，能构成H(n)种结构不一样的树。H(n) = c(2n,n) / (n+1)。

6、二叉树的存储结构

　　为了方便说明，咱们使用下图树1做为案例树。

一、顺序存储

　　顺序存储是使用一个数组来存储二叉树，咱们通常将二叉树按照性质4的作法，即从上到下且从左至右进行 1 至 n 的编号，而后编号与数组下标对应，按照编号依次将对应的结点信息存储数组中便可。

　　第一步：给二叉树编号：

　　注意，编号5的位置是没有结点的，可是咱们这样编号的目的是为了更好的应用性质4，而性质4描述的是彻底二叉树，因此咱们编号时要将普通二叉树看作彻底二叉树来进行编号，因此即便编号5即便没有结点也须要进行编号。

　　第二步：按编号存储到数组BTree[]中

　　第三步：按照性质4的规律取元素

　　性质4主要是描述结点的编号和双亲编号或孩子编号之间的数学关系，即咱们知道了一个结点的编号，那么它的双亲编号和孩子孩子咱们都能计算获得并从数组中取出来。

　　例如，结合性质4咱们来计算编号3的双亲和孩子：选取出编号3即BTree[3]，就能够知道编号3的元素为C；双亲结点编号 = 3/2 = 1 ≥ 1，因此C结点的双亲为BTree[1]即A；左孩子编号 = 3*2 = 6 ≤ 7，因此C的右孩子为BTree[6] = E；右孩子编号 = 3*2+1 = 7 ≤ 7，因此C的右孩子为Btree[7] = F。

　　结论：像编号5这种状况会占用存储空间，因此这种存储方式最适合用于存储彻底二叉树，而存储通常的二叉树则会浪费大量空间。

二、链式存储

　　根据二叉树的结构，咱们使用下面的链式结点来存储一个二叉树结点。

　　因此树1对应的链式存储结构为：

7、二叉树的遍历算法

　　根据二叉树的结构特色：通常二叉树由左子树、根结点和右子树组成。这三个元素：左子树（L）、根结点（N）、右子树（R）有6种中排列组合，即NLR、LNR、LRN、NRL、RNL、RLN。而从左往右和从右往左这种遍历顺序是对称结构的，采用一种顺序便可，因此二叉树按照三个元素的排列顺序遍历就造成了：NLR（先序遍历）、LNR（中序遍历）和LRN（后序遍历）。

　　ps:二叉树的这三种遍历要用递归的思想去理解。

　　先序遍历（NLR）：根左右

　　1）访问根结点

　　2）先序遍历左子树

　　3）先序遍历右子树

　　中序遍历（LNR）：左根右

　　1）中序遍历左子树

　　2）访问根结点

　　3）中序遍历右子树

　　后序遍历（LRN）：左右根

　　1）后序遍历左子树

　　2）后序遍历右子树

　　3）访问根结点

　　java实现（遍历树1）：

 1 package test;
 2 
 3 import org.junit.Test;
 4 
 5 /**
 6  * 二叉树的遍历
 7  * @author Fzz
 8  * @date 2018年1月17日
 9  * @Description TODO:
10  */
11 public class BinaryTreeTraversal {
12     private StringBuffer sb = new StringBuffer();
13     //先序遍历(数组)
14     public String first(Object[] o,int i){
15         //访问根结点
16         sb.append(o[i]);
17         //遍历左子树
18         int left = i*2;
19         if(left<o.length&&o[left]!=null)
20             first(o,left);
21         //遍历右子树
22         int right = i*2+1;
23         if(right<o.length&&o[right]!=null)
24             first(o,right);
25         return sb.toString();
26     }
27     
28     //中序遍历
29     public String mid(Object[] o,int i){
30         //遍历左子树
31         int left = i*2;
32         if(left<o.length&&o[left]!=null)
33             mid(o,left);
34         //访问根结点
35         sb.append(o[i]);
36         //遍历右子树
37         int right = i*2+1;
38         if(right<o.length&&o[right]!=null)
39             mid(o,right);
40         return sb.toString();
41     }
42     
43     //后序遍历
44     public String last(Object[] o,int i){
45         //遍历左子树
46         int left = i*2;
47         if(left<o.length&&o[left]!=null)
48             last(o,left);
49         //遍历右子树
50         int right = i*2+1;
51         if(right<o.length&&o[right]!=null)
52             last(o,right);
53         //访问根结点
54         sb.append(o[i]);
55         return sb.toString();
56     }
57     
58     //将缓存区设为空
59     public void setBufferNull(){
60         this.sb = this.sb.delete(0, sb.length());
61     }
62     
63     @Test
64     public void test(){
65         Character[] o = {null,'A','B','C','D',null,'E','F'};
66         //遍历前先清空缓存区
67         this.setBufferNull();
68         String s = first(o,1);
69         System.out.println("先序遍历结果："+s);
70         this.setBufferNull();
71         s = mid(o,1);
72         System.out.println("中序遍历结果："+s);
73         this.setBufferNull();
74         s = last(o,1);
75         System.out.println("后序遍历结果："+s);
76     }
77 }

　　测试结果：

　　层次遍历

　　层次遍历比较简单，即按照从上往下、从左往右一层一层遍历便可。层次遍历是现实，若是遍历的是顺序存储（数组存储）的二叉树，因为存储的时候就是按照从上往下从左往右的顺序存储的，直接按顺序取出便可；若是是链式存储的二叉树，须要使用一个循环队列进行操做：先将根结点入队，当前结点是队头结点，将其出队并访问，若是当前结点的左结点不为空将左结点入队，若是当前结点的右结点不为空将其入队。因此出队顺序也是从左到右依次出队。

8、二叉树的基本应用

一、二叉排序树（Binary Sort Tree）

　　二叉排序树，又称二叉查找树（Binary Search Tree），亦称二叉搜索树。

　　一、定义

　　二叉排序树或者是一棵空树，或者是具备下列性质的二叉树：

　　（1）若左子树不空，则左子树上全部结点的值均小于或等于它的根结点的值；

　　（2）若右子树不空，则右子树上全部结点的值均大于或等于它的根结点的值；

　　（3）左、右子树也分别为二叉排序树；

　　ps：根据二叉排序树的定义，若是对二叉排序树进行中序遍历，那么遍历的结果就是一个递增的序列。

　　二、查找关键字

　　二叉排序树的主要功能就是查找。首先将须要查找的序列排序后存储到二叉排序树中，那么要查找的关键字要么在左子树，要么在根结点，要么在右子树，因此咱们首先将要查找的关键字与根结点作比较，相等则查找成功。小于根结点则递归查找左子树，大于根结点则递归查找右子树，直到出现相等状况则查找成功，不然查找失败。（该查找过程与折半查找相似）

　　三、插入关键字

　　插入操做主要是对查找不成功的排序二叉树，即若是关键字查找不成功，那么咱们就须要将查找不成功的关键字插入查找不成功的位置。因此咱们只须要将查找算法进行修改就能实现插入操做（ps：若二叉树为空，则首先单独生成根结点）：

 1 BiTree* InsertBST(BiTree *t,int key)
 2 {
 3     if (t == NULL)
 4     {
 5         t = new BiTree();
 6         t->lchild = t->rchild = NULL;
 7         t->data = key;
 8         return t;
 9     }
10  
11     if (key < t->data) 
12         t->lchild = InsertBST(t->lchild, key);
13     else
14         t->rchild = InsertBST(t->rchild, key);
15  
16     return t;
17 }

　　四、删除关键字

　　在删除关键字结点时，须要注意的是，在删除后咱们须要保持二叉排序树的特性。

　　在二叉排序树删去一个结点，分三种状况讨论：（设被删除结点为p，p的双亲结点为f）

若p结点为叶子结点，即PL(左子树)和PR(右子树)均为空树。因为删去叶子结点不破坏整棵树的结构，则能够 直接删除此子结点。
若p结点只有左子树PL或右子树PR，此时只要令PL或PR直接成为其双亲结点f的左子树（当p是左子树）或右子树（当p是右子树）便可，做此修改也不破坏二叉排序树的特性。
若p结点的左子树和右子树均不空。这种状况能够转换为状况1或2而后再按照1或2的方法来解决。有两种转换方法：

其一是找到p结点的左子树的最右边的结点r（沿着p的左子树的根结点的右指针一直走，其实就是找到左子树的最大值），用r结点替换p结点，而后再删除r结点便可。

其二是找到p结点的右子树的最左边的结点r（沿着p的右子树的根结点的左指针一直走，其实就是找到左子树的最小值），用r结点替换p结点，而后再删除r结点便可。
java实现：

private void deleteNode(BinarySortTree p)
{
    //TODOAuto-generatedmethodstub
    if(p!=null)
    {
        //若是结点有左子树
        /*1。若p有左子树，找到其左子树的最右边的叶子结点r，用该叶子结点r来替代p，把r的左孩子
        做为r的父亲的右孩子。
        2。若p没有左子树，直接用p的右孩子取代它。
        */
        if(p.lChild!=null)
        {
            BinarySortTree r=p.lChild;
            BinarySortTree prev=p.lChild;
                while(r.rChild!=null)
               {
                    prev=r;
                    r=r.rChild;
                }
                p.data=r.data;
            //若r不是p的左子树,p的左子树不变，r的左子树做为r的父结点的右孩子结点
            if(prev!=r)
            {
                prev.rChild=r.lChild;
             }
            else
            {
             //若r是p的左子树，则p的左子树指向r的左子树
            p.lChild=r.lChild;
            }
        }
        else
        {
            p=p.rChild;
        }
    }
}

二、平衡二叉树

　　平衡二叉树又称为AVL树，是一种特殊的二叉排序树，即左右两个子树高度之差不超过1，而且左右两个子树都是平衡二叉树的二叉排序树称为平衡二叉树。

　　为何要构造平衡二叉树呢？对于通常的二叉排序树，其指望高度（即为一棵平衡树时）为log2n，其各操做的时间复杂度（O(log2n)）同时也由此而决定。因为AVL树的左右子树高度之差不超过1，其高度通常都良好地维持在O（log（n）），大大下降了操做的时间复杂度。

　　平衡二叉树的实现算法：关键在于左右子树的平衡。具体的算法有：红黑树、AVL算法、Treap、伸展树、SBT来实现。有兴趣的能够自行搜索，这里就再也不描述。

三、赫夫曼树及赫夫曼编码

　　赫夫曼树又叫作最优二叉树，特色是带权路径长度最短。

　　一、相关术语

　　路径和路径长度：在一棵树中，从一个结点往下能够达到的孩子或孙子结点之间的通路，称为路径。通路中分支的数目称为路径长度。

　　结点的权及带权路径长度：若将树中结点赋给一个有着某种含义的数值，则这个数值称为该结点的权。结点的带权路径长度为：从根结点到该结点之间的路径长度与该结点的权的乘积。

　　树的带权路径长度：树的带权路径长度规定为全部叶子结点的带权路径长度之和，记为WPL。

　　以下图有4个叶子结点的二叉树：

　　则这棵树的WPL = 2*7+2*5+3*2+2*4 = 38。

　　二、赫夫曼树的构造

　　假设有n个权值，则构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w一、w二、…、wn，则哈夫曼树的构造规则为：

　　(1) 将w一、w二、…，wn当作是有n 棵树的森林(每棵树仅有一个结点)；

　　(2) 在森林中选出两个根结点的权值最小的树合并，做为一棵新树的左、右子树，且新树的根结点权值为其左、右子树根结点权值之和；

　　(3)从森林中删除选取的两棵树，并将新树加入森林；

　　(4)重复(2)、(3)步，直到森林中只剩一棵树为止，该树即为所求得的哈夫曼树。

　　以上面的二叉树为例：首先有4个叶子结点a、b、c、d，权值分别为七、五、二、4。则：

　　普构造获得的赫夫曼树的带权路径长度是最小的，WPL = 1*7+2*5+3*2+4*4 = 35。

　　三、赫夫曼树的特色

　　1）权值越大的结点离根结点越近。

　　2）树中没有度为1的结点。这类树又称为正则（严格）二叉树。

　　四、赫夫曼树的应用：赫夫曼编码

　　赫夫曼编码是一种编码方式。例如咱们须要发送右A、B、C、D这4个字符组成的一些文字，若是分别用00,01,10,11来表明要传送的A、B、C、D。则须要发送"ADA"就编码为：001100。

　　咱们但愿编码的长度可以越短越好，上面的编码方式长度显然是与字符个数成正比的，不能知足需求，因此赫夫曼想到了设置不一样的编码长度来表达不一样字符，那么让出现几率越高的字符设置编码长度越短便可。假设A、B、C、D出现的几率分别为0.四、0.三、0.二、0.1。那么A、B、C、D的编码就能够分别用0、00、0一、1来表示。那么ADA的编码就是“010”，但"CA"的编码也是“010”，因此咱们在设置不一样长度的编码时须要使用前缀编码（即任一编码都不是其余编码的前缀，这样就不会产生歧义了）。因此A、B、C、D的编码修改成：0、十、1十、111便可。

　　赫夫曼编码就是长度可变（编码长度最短）的前缀编码。其实，赫夫曼编码的构造就是赫夫曼树的构造过程：即字符至关于叶子结点；字符出现的几率至关于结点的权值；因为构造的赫夫曼树权值越大的结点离根结点越近，因此字符出现几率越大的字符离根结点越近，路径也就越短。

　　因此，A、B、C、D（0.四、0.三、0.二、0.1）构造的赫夫曼树过程以下：

　　1）构造赫夫曼树。

　　2）约定左分支表示0，右分支表示1。

　　3）从根结点到字符结点的路径组成的编码就是该字符的赫夫曼编码。

数据结构之二叉树（BinaryTree）

导读

目录

1、二叉树的定义

2、二叉树为什么不是特殊的树

一、二叉树与无序树不一样

二、二叉树与有序树也不一样（关键）

3、二叉树的五种基本状态

4、二叉树相关术语

5、二叉树的主要性质

6、二叉树的存储结构

一、顺序存储

二、链式存储

7、二叉树的遍历算法

8、二叉树的基本应用

一、二叉排序树（Binary Sort Tree）

二、平衡二叉树

三、赫夫曼树及赫夫曼编码

　　一、二叉树与无序树不一样

　　二、二叉树与有序树也不一样（关键）