Mysql之数据库设计规范

时间 2019-11-13

原文原文链接

1. 三大范式
首先要明白”范式（NF）”是什么意思。按照教材中的定义，范式是“符合某一种级别的关系模式的集合，表示一个关系内部各属性之间的联系的合理化程度”。数据库范式也分为1NF，2NF，3NF，BCNF，4NF，5NF。通常在咱们设计关系型数据库的时候，最多考虑到BCNF就够。符合高一级范式的设计，一定符合低一级范式，例如符合2NF的关系模式，一定符合1NF。数据库

1.1 第一范式
消除一个字段包含多个数据库值，消除一个记录包含重复的组（单独的一列包含多个项目），便可知足1NF。符合1NF的关系中的每一个属性都不可再分。以下表所示的状况，就不符合1NF的要求。安全

实际上，1NF是全部关系型数据库的最基本要求，你在关系型数据库管理系统（RDBMS），例如SQL Server，Oracle，MySQL中建立数据表的时候，若是数据表的设计不符合这个最基本的要求，那么操做必定是不能成功的。也就是说，只要在RDBMS中已经存在的数据表，必定是符合1NF的。
可是仅仅符合1NF的设计，仍然会存在数据冗余过大，插入异常，删除异常，修改异常的问题，例如对于表中的设计：数据结构

（1）每一名学生的学号、姓名、系名、系主任这些数据重复屡次。每一个系与对应的系主任的数据也重复屡次——数据冗余过大假如学校新建了一个系，可是暂时尚未招收任何学生（好比3月份就新建了，但要等到8月份才招生），那么是没法将系名与系主任的数据单独地添加到数据表中去的——插入异常。
（2）假如将某个系中全部学生相关的记录都删除，那么全部系与系主任的数据也就随之消失了（一个系全部学生都没有了，并不表示这个系就没有了）。——删除异常
（3）假如李小明转系到法律系，那么为了保证数据库中数据的一致性，须要修改三条记录中系与系主任的数据。——修改异常。
（4）正由于仅符合1NF的数据库设计存在着这样那样的问题，咱们须要提升设计标准，去掉致使上述四种问题的因素，使其符合更高一级的范式（2NF），这就是所谓的“规范化”。并发

1.2 第二范式
消除部分依赖性便可转化为2NF。部分依赖性表示一个记录中包括的字段只依赖于主键的一部分。解决部分依赖性的最简单方法是将复合主键分红两部分，每一部分表示一个单独的表。其改进是，2NF在1NF的基础之上，消除了非主属性对于码的部分函数依赖。接下来对这句话中涉及到的四个概念——“函数依赖”、“码”、“非主属性”、与“部分函数依赖”进行一下解释。数据库设计

1.2.1 函数依赖
咱们能够这么理解（但并非特别严格的定义）：若在一张表中，在属性（或属性组）X的值肯定的状况下，一定能肯定属性Y的值，那么就能够说Y函数依赖于X，写做 X → Y。也就是说，在数据表中，不存在任意两条记录，它们在X属性（或属性组）上的值相同，而在Y属性上的值不一样。这也就是“函数依赖”名字的由来，相似于函数关系 y = f(x)，在x的值肯定的状况下，y的值必定是肯定的。
例如，对于上例表中的数据，找不到任何一条记录，它们的学号相同而对应的姓名不一样。因此咱们能够说姓名函数依赖于学号，写做学号 → 姓名。可是反过来，由于可能出现同名的学生，因此有可能不一样的两条学生记录，它们在姓名上的值相同，但对应的学号不一样，因此咱们不能说学号函数依赖于姓名。表中其余的函数依赖关系还有如：系名 → 系主任学号 → 系主任（学号，课名） → 分数但如下函数依赖关系则不成立：学号 → 课名学号 → 分数课名 → 系主任（学号，课名） → 姓名。函数

1.2.2 码
设 K 为某表中的一个属性或属性组，若除 K 以外的全部属性都彻底函数依赖于 K（这个“彻底”不要漏了），那么咱们称 K 为候选码，简称为码。在实际中咱们一般能够理解为：假如当 K 肯定的状况下，该表除 K 以外的全部属性的值也就随之肯定，那么 K 就是码。一张表中能够有超过一个码。（实际应用中为了方便，一般选择其中的一个码做为主码）性能

1.2.3 非主属性
包含在任何一个码中的属性成为主属性。学习

1.3 第三范式
消除可传递依赖性便可知足3NF。可传递依赖性表示记录中至少一个值不依赖主键，而是依赖于这个记录中的另外一个字段。
符合3NF要求的数据库设计，基本上解决了数据冗余过大，插入异常，修改异常，删除异常的问题。固然，在实际中，每每为了性能上或者应对扩展的须要，常常作到2NF或者1NF，可是做为数据库设计人员，至少应该知道，3NF的要求是怎样的。.net

1.4 BCNF范式
要了解 BCNF 范式，那么先看这样一个问题：设计

以下：
某公司有若干个仓库；
每一个仓库只能有一名管理员，一名管理员只能在一个仓库中工做；
一个仓库中能够存放多种物品，一种物品也能够存放在不一样的仓库中。每种物品在每一个仓库中都有对应的数量。

那么关系模式仓库（仓库名，管理员，物品名，数量）属于哪一级范式？答：已知函数依赖集：仓库名 → 管理员，管理员 → 仓库名，（仓库名，物品名）→ 数量码：（管理员，物品名），（仓库名，物品名）主属性：仓库名、管理员、物品名，非主属性：数量，不存在非主属性对码的部分函数依赖和传递函数依赖。此关系模式属于3NF。基于此关系模式的关系（具体的数据）可能如图所示：

好，既然此关系模式已经属于了 3NF，那么这个关系模式是否存在问题呢？咱们来看如下几种操做：先新增长一个仓库，但还没有存听任何物品，是否能够为该仓库指派管理员？——不能够，由于物品名也是主属性，根据实体完整性的要求，主属性不能为空。某仓库被清空后，须要删除全部与这个仓库相关的物品存放记录，会带来什么问题？——仓库自己与管理员的信息也被随之删除了。若是某仓库更换了管理员，会带来什么问题？——这个仓库有几条物品存放记录，就要修改多少次管理员信息。
从这里咱们能够得出结论，在某些特殊状况下，即便关系模式符合 3NF 的要求，仍然存在着插入异常，修改异常与删除异常的问题，仍然不是 ”好“ 的设计。形成此问题的缘由：存在着主属性对于码的部分函数依赖与传递函数依赖。（在此例中就是存在主属性【仓库名】对于码【（管理员，物品名）】的部分函数依赖。解决办法就是要在 3NF 的基础上消除主属性对于码的部分与传递函数依赖。仓库（仓库名，管理员）库存（仓库名，物品名，数量）这样，以前的插入异常，修改异常与删除异常的问题就被解决了。以上就是关于 BCNF 的解释。
BCNF（Boyce-Codd Normal Form）能够看做更好的3NF。在知足第二第三范式的状况下，决定项内部也不能部分或传递依赖。简单点看就是：箭头左边的必须是码，不是码的就不是BCNF。

2. 数据库设计相关
2.1 数据规范化
关系模式知足的约束条件称为范式。范式由低到高分为：1NF、2NF、3NF、BCNF、4NF、5NF。
规范化：就是指把一个低一级的关系模式分解为高一级关系模式的过程。
规范化的基本思想：逐步消除不合适的函数依赖，使数据库中的各个关系模式达到某种程度的分离。
函数依赖：通俗的说，就像自变量x肯定以后，相应的函数值f(x)也就惟一的肯定了同样。
码：给定一个码能彻底决定一个元组。一个关系可能有多个码，选其中一个作为主码。包含在任一码中的属性称为主属性。不包含在任何码中的属性称为非主属性。
第一范式（1NF）：若是关系中全部属性的值域都是简单域，其元素（属性）不可再分，是属性项不是属性组，那么关系模式属于第一范式。这一限制是关系的基本性质，因此任何关系都必须知足第一范式。
第二范式（2NF）：若是一个范式属于1NF，且全部的非主属性都彻底的依赖主属性，称为第二范式。能够用分解的方法消除部分依赖的状况，而使关系达到2NF的标准。方法是从现有关系中分解出新的关系表，使每一个表中全部的非关键字都彻底依赖于各自的主关键字。
(消除部分依赖)
第三范式（3NF）：若是一个关系属于2NF，且每一个非主属性不传递依赖于主属性，这种关系是3NF。从2NF中消除传递依赖，就是3NF。
(消除部分传递依赖)
BC范式（BCNF）：不管2NF仍是3NF都没有涉及主属性间的函数依赖，因此有时仍会引发一些问题。
定义：若是关系模式属于1NF，且每个函数依赖关系中的决定因素都包含码，则关系知足BC范式。主属性对不含他的码彻底函数依赖，没有属性彻底函数依赖于一组非主属性。
多值依赖和4NF：第四范式是BC范式的推广。
定义：关系模式R

2.2 数据库设计
2.2.1 经常使用方法：
(1)基于3NF的数据库设计方法：
在需求分析的基础上，识别并确认数据库模式中的所有属性和属性间的依赖，将他们组织成一个单一的关系模式，而后再分析模式中不符合3NF的约束条件，用投影和链接的办法将其分解，使其达到3NF。
(2)LRA方法：逻辑记录存取法。
(3)基于实体联系（E-R）的数据库设计方法。
(4)基于视图概念的数据库设计方法。
(5)面向对象的关系数据库设计方法。
一般将数据库设计分为需求分析、概念结构设计、逻辑结构设计和数据库物理设计4个阶段。

2.2.2 概念结构设计
概念结构设计经常使用的方法是实体分析法、属性综合法。
二元联系的类型与定义：二元联系指两个实体之间的联系。分为一对1、一对多、多对多3种。
（1）一对一联系：对于实体集A中的每个实体，实体集B中至多有一个实体与之联系。
（2）一对多联系：对于实体集A中的每个实体，实体集B有n个实体（n>=0）与之联系，反之对于实体集B中的每个实体，实体集A至多只有一个实体与之联系。则实体集A与实体集B有一对多关系，记为1:n。
（3）多对多联系：若对于实体集A中的每个实体，实体集B有n个实体（n>=0）与之联系。反过来，对于实体集B中的每个实体，实体集A有m个实体（m>=0）与之联系。则实体集A与实体集B具备多对多联系，记为m:n。
消除冗余联系：若出现两个或两个以上的联系表示的是同一律念，则存在着冗余的联系，具备冗余联系的E-R模型转换为关系模型可能会获得非规范化的关系，所以必须予以消除。
警戒链接陷阱：
链接陷阱是一种存在语义缺陷的联系结构，分为扇形陷阱、断层陷阱、深层扇形陷阱3种信息。
扇形陷阱：指由一个实体引出的两种不一样类型的扇形联系，造成双扇形结构。

2.2.3.数据库物理设计
利用已肯定的逻辑结构及DBMS提供的方法、技术。已较优的存储结构、数据存储路径、合理的数据存储位置及存储分配，设计一个高效可实现的物理数据库结构。

3. 模式
数据库三级模式结构：这是数据库管理系统内部的系统结构。

3.1 概念模式
只涉及行的描述，不涉及具体的值。概念模式的一个具体值称为模式的一个实例，同一模式能够有不少实例。概念模式反映的是数据库的结构及其联系，因此是相对稳定的。而实例反映的是数据库某一时刻的状态，因此是相对变更的。
概念模式不只要描述记录类型，还要描述记录间的联系、操做、数据的完整性、安全性。但概念模式不涉及存储结构、访问技术等细节。

3.2 外模式
也称用户模式或子模式。是用户与数据库系统的接口，是用户用到的那部分记录的描述。由若干外部记录组成，用户使用DML（数据操做语言）操做外模式的外部记录。

3.3 内模式
也称存储模式，是数据库物理结构和存储方式的描述，是数据在数据库内部的表示方式。定义全部内部记录的类型、索引、文件的组织方式。记录的存储方式是顺序存储、B树存储、Hash方法存储等。
两级映像：模式/内模式映像、外模式/模式映像。
实体与记录：实体表示客观存在，能区别的事物。记录是字段的有序集合，通常一条记录描述一个实体。
属性与字段：属性描述实体某方面的特性，字段标记实体属性的命名单位。
码与记录码：码是惟一能区分实体的属性或属性集，记录码是惟一标识文件中的每条记录的字段或字段集。
实体集与文件：实体集是具备共同特性的实体的集合。文件是同一类记录的聚集。
实体型与记录型：实体型是属性的集合，记录型是记录的结构定义。

3.4 数据模型三要素
数据库结构的基础是数据模型，是用来描述数据的一组概念和定义。
数据模型三要素是数据结构、数据操做、数据的约束条件。
E-R模型：是实体-联系模型的简称。所采用的3个主要概念是实体、联系、属性。
实体：现实世界中能够区别其它对象的物体或事件。
联系：实体的联系分为实体内部的联系和实体与实体之间的联系。
两个不一样实体之间的联系：
（1）一对一：指实体集E1中的一个实体最多只与实体集E2中的一个实体相联系。（1:1）
（2）一对多：表示实体集E1中的一个实体可与实体集E2中的多个实体相联系。（1:N）
（3）多对多：表示实体集中E1中的多个实体可与实体集E2中的多个实体相联系。（M:N）
两个以上不一样实体集的联系：
两个以上不一样实体集之间存在1：1：一、1：1：N、1：M：N和R：M：N
同一实体集内的二元联系：
同一实体集内的各实体之间也存在1：一、1：N和M：N的联系。
属性是实体某方面的特性。
派生属性能够从其它属性得来，例如：参加工做时间和工做年限，工做年限能够从当前时间和参加工做时间获得，这里工做年限就是一个派生属性。
概念模型中最经常使用的方法是实体-联系法，简称E-R方法。
扩充的E-R模型：
弱实体：这种实体对另外一些实体有着很强的依赖关系，即一个实体的存在必须以另外一个实体为前提。例如职工与家眷的关系。
特殊化：一个实体集能够按照某种特征区分为几个子实体。例如：学生实体集能够分为研究生、本科生、大专生。咱们称这种过程为特殊化，反之叫广泛化。
层次模型：采用树形结构表示数据与数据之间的联系。
网状模型：采用网状结构表示数据与数据之间的联系。
关系模型：在关系模型中以表格结构表达实体集，以及实体集之间的联系。
关系代数：
笛卡尔积：D1={0，1}、D2={a，b}。D1*D2={0,a}{0,b}{1,a}{1,b}。
关系的3种类型：
基本关系：实际存在的表，是实际存储数据的逻辑表示。
查询表：查询结果对应的表。
视图表：由基本表或其它视图表导出的表，因为它自己不独立存储在数据库中。数据库只存放它的定义，因此常称为虚表。
完整性约束：
完整性规则提供了一种手段来保证受权用户对数据库操做修改时不会破坏数据的一致性。
关系的完整性分为3类：
（1）实体完整性：规定基本关系R的主属性A不能取空值。
（2）参照完整性：在关系模型中实体与实体间的联系是用关系来描述的。这样天然就存在着关系与关系间的引用。
（3）用户定义完整性：反映某一具体应用所涉及的数据必须知足的语义要求，由应用环境决定。
5种基本的关系代数运算：并、差、广义笛卡尔积、投影、选择。
扩展关系运算：交、链接、除、广义投影、外链接。
SQL支持三级模式结构：视图对应外模式，基本表对应模式，存储文件对应内模式。

3.4 索引
数据库中索引与书籍中索引相似，利用索引能够快速查找整本书信息，无需阅读整本书。
数据库索引可使数据库程序无需对整个表进行扫描，就能够在其中找到所需数据。
索引分为：
汇集索引和非汇集索引。
汇集索引是指索引表中索引项的顺序与表中记录的物理顺序一致的索引。
视图建立遵循以下规定：
（1）子查询不容许有order by和distinct语句。
（2）with check option表示对update、insert、delete操做时保证更新、插入或删除的行知足视图定义的谓词条件（即知足子查询中的where后的条件表达式）。
（3）组成视图的属性列名或者所有省略或者所有指定。若是省略属性列名，则隐含视图由SELECT子查询目标列的主属性组成。
SQL的访问控制：数据库控制是控制用户的存储权限,由DBA来决定。
经过GRANT和REVORK将受权通知系统，并存入数据字典。

4. 规范化
规范化：将关系模式从低一级范式转化成高一级范式的过程。
5NF包含于4NF包含于BCNF包含于3NF包含于2NF包含于1NF。
1NF定义：关系模式R中的每一个份量是不可再分的数据项，则关系模式R属于第一范式。1NF冗余度大、引发修改的不一致性、插入及删除异常。
2NF定义：若关系模式属于1NF，且每一个非主属性彻底依赖于码，则关系模式属于2NF。即1NF消除了非主属性对码的部分函数依赖。
3NF定义：2NF消除了非主属性对码的传递函数依赖，则称3NF。3NF的模式必是2NF的模式。产生冗余和异常的两个重要缘由是部分函数依赖和传递依赖。
BCNF（巴科斯范式）：即3NF消除了主属性对码的部分和传递依赖，称为BCNF。
4NF：4NF是限制关系模式的属性间不容许有非平凡且非函数依赖的多值依赖。
若是只考虑函数依赖，BCNF是关系模式最高的规范化程度。若是考虑多值依赖，4NF是关系模式最高的规范化程度。

5. 事务管理
事务有4个特性ACID。
原子性（A）：要么全作，要么全不作。
一致性（C）：一个事务独立执行的结果，将保持数据的一致性，即数据不会由于数据的执行而遭受破坏。
隔离性（I）：一个事务的执行不能被其它事物干扰。
持久性（D）：一个事物一旦提交，对数据库的改变必须是永久的。
SQL中事物定义语句有3条：
BEGIN TRANSACTION：事务开始。
COMMIT：事务提交。
ROLLBACK：事务回滚。

6. 并发控制
并发控制主要技术是封锁，主要包含：排他锁（简称X锁或写锁）、共享锁（简称S锁或读锁）。
排他锁：若事务T对数据对象A加上X锁，则只容许T读取和修改A。其它事务不能对A加任何锁，直到T释放锁。
共享锁：若事务T对数据对象A加上S锁，则只容许T读取A，但不能修改A。其它事务只能再对A加S锁。保证其它事务能够读取A，但在T释放A上的S锁前不能修改A。
三级封锁协议：
一级封锁协议：事务在修改数据前必须先对其加X锁，直到事务结束才释放（结束包括commit或rollback）。一级封锁协议解决丢失更新的问题。
二级封锁协议：在一级协议的基础上，加上事务在读数据以前必须加S锁，读完后便可释放S锁。二级封锁协议解决读脏数据的问题。由于读完后即释放，因此不能保证可重复读。
三级封锁协议：在一级协议的基础上，加上事务在读数据以前必须加S锁，直到事务结束时释放S锁。除了防止丢失更新、读脏数据的问题，还进一步防止不可重复读。
活锁和死锁：
活锁：当事务T1封锁数据R，事务T2请求数据R因而T2等待。T1释放了R上的封锁，系统首先批准了T3的请求，T2继续等待，以后系统批准了T4的请求……依此类推，T2可能永久等待。这种现象称为活锁。
死锁：是指两个以上事务分别请求封锁对方已经封锁的数据，致使长期等待而没法继续进行下去的现象叫死锁。
并发调用可串行性：
多个事务并发执行，当且仅当其结果与某一次序串行地执行它们时的结果相同，咱们称这种调度是可串行化调度。
给定一个并发调度，当且仅当它是可串行化的才认为是正确调度。
两段封锁协议：指全部事务必须分为两个阶段对数据项加锁和解锁。
第一阶段是得到封锁：事务能够得到任何数据项上的任何类型的锁，但不能释放。
第二阶段是释放封锁：事务能够释听任何数据项上的任何类型的锁，但不能申请。
事务是不能嵌套的，由于这违背了事务的原子性。事务是不能嵌套是指当且仅当当前没有事务在运行时，程序才能执行BEGIN TRANSACTION操做。
经过Resource受权来控制建立新关系的能力，具备Resource受权的用户在建立新关系后自动得到该关系上的全部权限。

做者：小潭渔
原文：https://blog.csdn.net/uftjtt/article/details/80475432

仅做学习和交流