树形结构的数据库表设计

时间 2019-12-11

标签结构数据库设计栏目 SQL 繁體版

原文原文链接

树形结构的数据库表设计

最近研究树形菜单网上找了不少例子看了。一下是网上找的一些资料，而后本身从新实践，记录下省得下次又忘记了。

 程序设计过程当中，咱们经常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，一般而言，这些树状结构须要借助于数据库完成持久化。然而目前的各类基于关系的数据库，都是以二维表的形式记录存储数据信息，所以是不能直接将Tree存入DBMS，设计合适的Schema及其对应的CRUD算法是实现关系型数据库中存储树形结构的关键。
理想中树形结构应该具有以下特征：数据存储冗余度小、直观性强；检索遍历过程简单高效；节点增删改查CRUD操做高效。无心中在网上搜索到一种很巧妙的设计，原文是英文，看事后感受有点意思，因而便整理了一下。本文将介绍两种树形结构的Schema设计方案：一种是直观而简单的设计思路，另外一种是基于左右值编码的改进方案。

1、基本数据
本文列举了一个食品族谱的例子进行讲解，经过类别、颜色和品种组织食品，树形结构图以下：
node

2、继承关系驱动的设计
对树形结构最直观的分析莫过于节点之间的继承关系上，经过显示地描述某一节点的父节点，从而可以创建二维的关系表，则这种方案的Tree表结构一般设计为：{Node_id,Parent_id}，上述数据能够描述为以下图所示：
算法

这种方案的优势很明显：设计和实现天然而然，很是直观和方便。缺点固然也是非  常的突出：因为直接地记录了节点之间的继承关系，所以对Tree的任何CRUD操做都将是低效的，这主要归根于频繁的“递归”操做，递归过程不断地访问数据库，每次数据库IO都会有时间开销。固然，这种方案并不是没有用武之地，在Tree规模相对较小的状况下，咱们能够借助于缓存机制来作优化，将Tree的信息载入内存进行处理，避免直接对数据库IO操做的性能开销。

3、基于左右值编码的设计sql

在基于数据库的通常应用中，查询的需求总要大于删除和修改。为了不对于树形结构查询时的“递归”过程，基于Tree的前序遍历设计一种全新的无递归查询、无限分组的左右值编码方案，来保存该树的数据。

第一次看见这种表结构，相信大部分人都不清楚左值（Lft）和右值（Rgt）是如何计算出来的，并且这种表设计彷佛并无保存父子节点的继承关系。但当你用手指指着表中的数字从1数到18，你应该会发现点什么吧。对，你手指移动的顺序就是对这棵树进行前序遍历的顺序，以下图所示。当咱们从根节点Food左侧开始，标记为1，并沿前序遍历的方向，依次在遍历的路径上标注数字，最后咱们回到了根节点Food，并在右边写上了18。

依据此设计，咱们能够推断出全部左值大于2，而且右值小于11的节点都是Fruit的后续节点，整棵树的结构经过左值和右值存储了下来。然而，这还不够，咱们的目的是可以对树进行CRUD操做，即须要构造出与之配套的相关算法。

4、树形结构CRUD算法数据库

（1）获取某节点的子孙节点
只须要一条SQL语句，便可返回该节点子孙节点的前序遍历列表，以Fruit为例：
SELECT * FROM tree WHERE lft BETWEEN 2 AND 11 ORDER BY lft ASC
查询结果以下所示：
缓存

那么某个节点到底有多少的子孙节点呢？经过该节点的左、右值咱们能够将其子孙节点圈进来，则子孙总数 = (右值 – 左值– 1) / 2，以Fruit为例，其子孙总数为：(11 –2 – 1) / 2 = 4。同时，为了更为直观地展示树形结构，咱们须要知道节点在树中所处的层次，经过左、右值的SQL查询便可实现，以Fruit为例：SELECTCOUNT(*) FROM tree WHERE lft <= 2 AND rgt >=11。为了方便描述，咱们能够为Tree创建一个视图，添加一个层次数列，该列数值能够写一个自定义函数来计算，函数定义以下：
建立表

CREATE TABLE `tree` ( `id` int(11) NOT NULL, `name` varchar(255) DEFAULT NULL, `lft` int(255) DEFAULT NULL, `rgt` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=utf8;

INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('1', 'Food', '1', '18');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('2', 'Fruit', '2', '11');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('3', 'Red', '3', '6');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('4', 'Cherry', '4', '5');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('5', 'Yellow', '7', '10');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('6', 'Banana', '8', '9');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('7', 'Meat', '12', '17');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('8', 'Beef', '13', '14');
INSERT INTO `jpa`.`tree` (`id`, `name`, `lft`, `rgt`) VALUES ('9', 'Pork', '15', '16');

CREATE VIEW `treeview` AS 
SELECT 
  `a`.`id` AS `id`,
  `a`.`name` AS `name`,
  `a`.`lft` AS `lft`,
  `a`.`rgt` AS `rgt`,
  `CountLayer` (`a`.`id`) AS `layer` 
FROM
  `tree` `a`

基于层次计算函数，咱们建立一个视图，添加了新的记录节点层次的数列：函数

> CREATE FUNCTION `CountLayer` (`node_id` INT) RETURNS INT (11) 
BEGIN
    DECLARE result INT (10) DEFAULT 0 ;
    DECLARE lftid INT;
    DECLARE rgtid INT;
    SELECT lft,rgt INTO lftid, rgtid FROM tree WHERE id = node_id;
    SELECT COUNT(*) INTO result  FROM tree WHERE lft <= lftid AND rgt >= rgtid;
    RETURN (result);
END

建立存储过程，用于计算给定节点的全部子孙节点及相应的层次：

CREATE  PROCEDURE `GetChildrenNodeList`(IN `node_id` INT) BEGIN DECLARE lftid INT;
DECLARE rgtid INT;
SELECT lft,rgt INTO lftid,rgtid FROM tree WHERE id= node_id;
SELECT * FROM treeview WHERE lft BETWEEN lftid AND rgtid ORDER BY lft ASC;
END

如今，咱们使用上面的存储过程来计算节点Fruit全部子孙节点及对应层次，查询结果以下：

从上面的实现中，咱们能够看出采用左右值编码的设计方案，在进行树的查询遍历时，只须要进行2次数据库查询，消除了递归，再加上查询条件都是数字的比较，查询的效率是极高的，随着树规模的不断扩大，基于左右值编码的设计方案将比传统的递归方案查询效率提升更多。固然，前面咱们只给出了一个简单的获取节点子孙的算法，真正地使用这棵树咱们须要实现插入、删除同层平移节点等功能。

（2）获取某节点的族谱路径性能

假定咱们要得到某节点的族谱路径，则根据左、右值分析只须要一条SQL语句便可完成，以Fruit为例：SELECT* FROM tree WHERE lft < 2 AND rgt > 11 ORDER BY lft ASC ，相对完整的存储过程：

CREATE PROCEDURE `GetParentNodePath`(IN `node_id` INT) BEGIN DECLARE lftid INT;
DECLARE rgtid INT;
SELECT lft,rgt INTO lftid,rgtid FROM tree WHERE id= node_id;
SELECT * FROM treeview WHERE lft < lftid AND rgt > rgtid ORDER BY lft ASC;
END

（3）为某节点添加子孙节点
假定咱们要在节点“Red”下添加一个新的子节点“Apple”，该树将变成以下图所示，其中红色节点为新增节点。
优化

CREATE PROCEDURE `AddSubNode`(IN `node_id` INT,IN `node_name` VARCHAR(64)) BEGIN DECLARE rgtid INT;
   DECLARE t_error INT DEFAULT 0;  
   DECLARE CONTINUE HANDLER FOR SQLEXCEPTION SET t_error=1; -- 出错处理 
   SELECT rgt INTO rgtid FROM tree WHERE id= node_id; 
   START TRANSACTION;
        UPDATE tree SET rgt = rgt + 2 WHERE rgt >= rgtid;
        UPDATE tree SET lft = lft + 2 WHERE lft >= rgtid;
        INSERT INTO tree (NAME,lft,rgt) VALUES(node_name,rgtid,rgtid+1);    
    IF t_error =1 THEN  
     ROLLBACK;
    ELSE
      COMMIT;
    END IF;
END

（4）删除某节点ui

若是咱们想要删除某个节点，会同时删除该节点的全部子孙节点，而这些被删除的节点的个数为：(被删除节点的右值 – 被删除节点的左值+ 1) / 2，而剩下的节点左、右值在大于被删除节点左、右值的状况下会进行调整。来看看树会发生什么变化，以Beef为例，删除效果以下图所示。

则咱们能够构造出相应的存储过程：

CREATE PROCEDURE `DelNode`(IN `node_id` INT) BEGIN DECLARE lftid INT;
     DECLARE rgtid INT;
   DECLARE t_error INT DEFAULT 0;  
   DECLARE CONTINUE HANDLER FOR SQLEXCEPTION SET t_error=1; -- 出错处理 
   SELECT lft,rgt INTO lftid,rgtid FROM tree WHERE id= node_id;
   START TRANSACTION;
       DELETE FROM tree WHERE lft >= lftid AND rgt <= rgtid;
       UPDATE tree SET lft = lft -(rgtid - lftid + 1) WHERE lft > lftid;
       UPDATE tree SET rgt = rgt -(rgtid - lftid + 1) WHERE rgt >rgtid;
    IF t_error =1 THEN  
     ROLLBACK;
    ELSE
      COMMIT;
    END IF;

END

5、总结
咱们能够对这种经过左右值编码实现无限分组的树形结构Schema设计方案作一个总结：
（1）优势：在消除了递归操做的前提下实现了无限分组，并且查询条件是基于整形数字的比较，效率很高。
（2）缺点：节点的添加、删除及修改代价较大，将会涉及到表中多方面数据的改动。编码

参考文献
http://blog.csdn.net/monkey_d_meng/article/details/6647488 -