[LevelDB] 0.3 Btree存储引擎

时间 2019-12-13

标签 leveldb 0.3 btree 存储引擎繁體版

原文原文链接

B 树是为了磁盘或其它存储设备而设计的一种多叉（下面你会看到，相对于二叉，B树每一个内结点有多个分支，即多叉）平衡查找树。
算法

B 树又叫平衡多路查找树。一棵m阶的B 树 (m叉树)的特性以下：函数

树中每一个结点最多含有m个孩子（m>=2）；
除根结点和叶子结点外，其它每一个结点至少有[ceil(m / 2)]个孩子（其中ceil(x)是一个取上限的函数）；
若根结点不是叶子结点，则至少有2个孩子（特殊状况：没有孩子的根结点，即根结点为叶子结点，整棵树只有一个根节点）；
全部叶子结点都出如今同一层，叶子结点不包含任何关键字信息(能够看作是外部接点或查询失败的接点，实际上这些结点不存在，指向这些结点的指针都为null)；
每一个非终端结点中包含有n个关键字信息： (n，P0，K1，P1，K2，P2，......，Kn，Pn)。其中：
a) Ki (i=1...n)为关键字，且关键字按顺序升序排序K(i-1)< Ki。
b) Pi为指向子树根的接点，且指针P(i-1)指向子树种全部结点的关键字均小于Ki，但都大于K(i-1)。
c) 关键字的个数n必须知足： [ceil(m / 2)-1]<= n <= m-1。

来模拟下查找文件29的过程：spa

(1) 根据根结点指针找到文件目录的根磁盘块1，将其中的信息导入内存。【磁盘IO操做1次】设计

(2) 此时内存中有两个文件名17，35和三个存储其余磁盘页面地址的数据。根据算法咱们发现17<29<35，所以咱们找到指针p2。指针

(3) 根据p2指针，咱们定位到磁盘块3，并将其中的信息导入内存。【磁盘IO操做2次】排序

(4) 此时内存中有两个文件名26，30和三个存储其余磁盘页面地址的数据。根据算法咱们发现26<29<30，所以咱们找到指针p2。继承

(5) 根据p2指针，咱们定位到磁盘块8，并将其中的信息导入内存。【磁盘IO操做3次】索引

(6) 此时内存中有两个文件名28，29。根据算法咱们查找到文件29，并定位了该文件内存的磁盘地址。内存

插入操做get

生成从空树开始，逐个插入关键字。可是因为B_树节点关键字必须大于等于[ceil(m/2)-1],因此每次插入一个关键字不是在树中添加一个叶子结点，而是首先在最底层的某个非终端节点中添加一个“关键字”，该结点的关键字不超过m-1,则插入完成；不然要产生结点的“分裂”，将一半数量的关键字元素分裂到新的其相邻右结点中，中间关键字元素上移到父结点中。

一、我们经过一个实例来逐步讲解下。插入如下字符字母到一棵空的B 树中（非根结点关键字数小了（小于2个）就合并，大了（超过4个）就分裂）：C N G A H E K Q M F W L T Z D P R X Y S，首先，结点空间足够，4个字母插入相同的结点中，以下图：

二、当我们试着插入H时，结点发现空间不够，以至将其分裂成2个结点，移动中间元素G上移到新的根结点中，在实现过程当中，我们把A和C留在当前结点中，而H和N放置新的其右邻居结点中。以下图：

三、当我们插入E,K,Q时，不须要任何分裂操做

四、插入M须要一次分裂，注意M刚好是中间关键字元素，以至向上移到父节点中

五、插入F,W,L,T不须要任何分裂操做

六、插入Z时，最右的叶子结点空间满了，须要进行分裂操做，中间元素T上移到父节点中，注意经过上移中间元素，树最终仍是保持平衡，分裂结果的结点存在2个关键字元素。

七、插入D时，致使最左边的叶子结点被分裂，D刚好也是中间元素，上移到父节点中，而后字母P,R,X,Y陆续插入不须要任何分裂操做（别忘了，树中至多5个孩子）。

八、最后，当插入S时，含有N,P,Q,R的结点须要分裂，把中间元素Q上移到父节点中，可是状况来了，父节点中空间已经满了，因此也要进行分裂，将父节点中的中间元素M上移到新造成的根结点中，注意之前在父节点中的第三个指针在修改后包括D和G节点中。这样具体插入操做的完成。

删除操做

首先查找B树中需删除的元素,若是该元素在B树中存在，则将该元素在其结点中进行删除，若是删除该元素后，首先判断该元素是否有左右孩子结点，若是有，则上移孩子结点中的某相近元素到父节点中，而后是移动以后的状况；若是没有，直接删除后，移动以后的状况。

删除元素，移动相应元素以后，若是某结点中元素数目（即关键字数）小于ceil(m/2)-1，则须要看其某相邻兄弟结点是否丰满（结点中元素个数大于ceil(m/2)-1）（还记得第一节中关于B树的第5个特性中的c点么?： c)除根结点以外的结点（包括叶子结点）的关键字的个数n必须知足：（ceil(m / 2)-1）<= n <= m-1。m表示最多含有m个孩子，n表示关键字数。在本小节中举的一颗B树的示例中，关键字数n知足：2<=n<=4），若是丰满，则向父节点借一个元素来知足条件；若是其相邻兄弟都刚脱贫，即借了以后其结点数目小于ceil(m/2)-1，则该结点与其相邻的某一兄弟结点进行“合并”成一个结点，以此来知足条件。那我们经过下面实例来详细了解吧。

以上述插入操做构造的一棵5阶B树（树中最多含有m（m=5）个孩子，所以关键字数最小为ceil(m / 2)-1=2。仍是这句话，关键字数小了（小于2个）就合并，大了（超过4个）就分裂）为例，依次删除H,T,R,E。

一、首先删除元素H，固然首先查找H，H在一个叶子结点中，且该叶子结点元素数目3大于最小元素数目ceil(m/2)-1=2，则操做很简单，我们只须要移动K至原来H的位置，移动L至K的位置（也就是结点中删除元素后面的元素向前移动）

二、下一步，删除T,由于T没有在叶子结点中，而是在中间结点中找到，我们发现他的继承者W(字母升序的下个元素)，将W上移到T的位置，而后将原包含W的孩子结点中的W进行删除，这里刚好删除W后，该孩子结点中元素个数大于2，无需进行合并操做。

三、下一步删除R，R在叶子结点中,可是该结点中元素数目为2，删除致使只有1个元素，已经小于最小元素数目ceil(5/2)-1=2,而由前面咱们已经知道：若是其某个相邻兄弟结点中比较丰满（元素个数大于ceil(5/2)-1=2），则能够向父结点借一个元素，而后将最丰满的相邻兄弟结点中上移最后或最前一个元素到父节点中（有没有看到红黑树中左旋操做的影子?），在这个实例中，右相邻兄弟结点中比较丰满（3个元素大于2），因此先向父节点借一个元素W下移到该叶子结点中，代替原来S的位置，S前移；而后X在相邻右兄弟结点中上移到父结点中，最后在相邻右兄弟结点中删除X，后面元素前移。

四、最后一步删除E，删除后会致使不少问题，由于E所在的结点数目恰好达标，恰好知足最小元素个数（ceil(5/2)-1=2）,而相邻的兄弟结点也是一样的状况，删除一个元素都不能知足条件，因此须要该节点与某相邻兄弟结点进行合并操做；首先移动父结点中的元素（该元素在两个须要合并的两个结点元素之间）下移到其子结点中，而后将这两个结点进行合并成一个结点。因此在该实例中，我们首先将父节点中的元素D下移到已经删除E而只有F的结点中，而后将含有D和F的结点和含有A,C的相邻兄弟结点进行合并成一个结点。

五、也许你认为这样删除操做已经结束了，其实否则，在看看上图，对于这种特殊状况，你当即会发现父节点只包含一个元素G，没达标（由于非根节点包括叶子结点的关键字数n必须知足于2=<n<=4，而此处的n=1），这是不可以接受的。若是这个问题结点的相邻兄弟比较丰满，则能够向父结点借一个元素。假设这时右兄弟结点（含有Q,X）有一个以上的元素（Q右边还有元素），而后我们将M下移到元素不多的子结点中，将Q上移到M的位置，这时，Q的左子树将变成M的右子树，也就是含有N，P结点被依附在M的右指针上。因此在这个实例中，我们没有办法去借一个元素，只能与兄弟结点进行合并成一个结点，而根结点中的惟一元素M下移到子结点，这样，树的高度减小一层。

为了进一步详细讨论删除的状况，再举另一个实例：

这里是一棵不一样的5序B树，那我们试着删除C

因而将删除元素C的右子结点中的D元素上移到C的位置，可是出现上移元素后，只有一个元素的结点的状况。

又由于含有E的结点，其相邻兄弟结点才刚脱贫（最少元素个数为2），不可能向父节点借元素，因此只能进行合并操做，因而这里将含有A,B的左兄弟结点和含有E的结点进行合并成一个结点。

这样又出现只含有一个元素F结点的状况，这时，其相邻的兄弟结点是丰满的（元素个数为3>最小元素个数2），这样就能够想父结点借元素了，把父结点中的J下移到该结点中，相应的若是结点中J后有元素则前移，而后相邻兄弟结点中的第一个元素（或者最后一个元素）上移到父节点中，后面的元素（或者前面的元素）前移（或者后移）；注意含有K，L的结点之前依附在M的左边，如今变为依附在J的右边。这样每一个结点都知足B树结构性质。

从以上操做可看出：除根结点以外的结点（包括叶子结点）的关键字的个数n知足：（ceil(m / 2)-1）<= n <= m-1，即2<=n<=4。这也佐证了我们以前的观点。删除操做完。

在B_树中关键字分布在整个B_树，而且在上层结点中出现过的关键字再也不出如今最底层的结点中。顺序链中全部的关键字不能链接在一块儿。

一颗m阶的B+树和m阶的B_树的差别在于：

1.有n棵子树的结点中含有n个关键字； (而B树是n棵子树有n-1个关键字)

2.全部的叶子结点中包含了所有关键字的信息，及指向含有这些关键字记录的指针，且叶子结点自己依关键字的大小自小而大的顺序连接。(而B树的叶子节点并无包括所有须要查找的信息)

3.全部的非终端结点能够当作是索引部分，结点中仅含有其子树根结点中最大（或最小）关键字。 (而B 树的非终节点也包含须要查找的有效信息)

1) B+-tree的磁盘读写代价更低

B+-tree的内部结点并无指向关键字具体信息的指针。所以其内部结点相对B 树更小。若是把全部同一内部结点的关键字存放在同一盘块中，那么盘块所能容纳的关键字数量也越多。一次性读入内存中的须要查找的关键字也就越多。相对来讲IO读写次数也就下降了。

举个例子，假设磁盘中的一个盘块容纳16bytes，而一个关键字2bytes，一个关键字具体信息指针2bytes。一棵9阶B-tree(一个结点最多8个关键字)的内部结点须要2个盘快。而B+ 树内部结点只须要1个盘快。当须要把内部结点读入内存中的时候，B 树就比B+ 树多一次盘块查找时间(在磁盘中就是盘片旋转的时间)。

2) B+-tree的查询效率更加稳定

因为非终结点并非最终指向文件内容的结点，而只是叶子结点中关键字的索引。因此任何关键字的查找必须走一条从根结点到叶子结点的路。全部关键字查询的路径长度相同，致使每个数据的查询效率至关。