关于范式的解说

时间 2019-11-09

标签关于范式解说繁體版

原文原文链接

数据库范式是数据库设计中必不可少的知识，没有对范式的理解，就没法设计出高效率、优雅的数据库。甚至设计出错误的数据库。而想要理解并掌握范式却并非那么容易。教科书中通常以关系代数的方法来解释数据库范式。这样作虽然可以十分准确的表达数据库范式，但比较抽象，不太直观，不便于理解，更难以记忆。
       本文用较为直白的语言介绍范式，旨在便于理解和记忆，这样作可能会出现一些不精确的表述。但对于初学者应该是个不错的入门。我写下这些的目的主要是为了增强记忆，其实我也比较菜，我但愿当我对一些概念生疏的时候，回过头来看看本身写的笔记，能够快速地进入状态。若是你发现其中用错误，请指正。
       下面开始进入正题：

1、基础概念
       要理解范式，首先必须对知道什么是关系数据库，若是你不知道，我能够简单的不能再简单的说一下：关系数据库就是用二维表来保存数据。表和表之间能够……（省略10W字）。
而后你应该理解如下概念：程序员

实体：现实世界中客观存在并能够被区别的事物。好比“一个学生”、“一本书”、“一门课”等等。值得强调的是这里所说的“事物”不只仅是看得见摸得着的“东西”，它也能够是虚拟的，不如说“老师与学校的关系”。
属性：教科书上解释为：“实体所具备的某一特性”，因而可知，属性一开始是个逻辑概念，好比说，“性别”是“人”的一个属性。在关系数据库中，属性又是个物理概念，属性能够看做是“表的一列”。
元组：表中的一行就是一个元组。
份量：元组的某个属性值。在一个关系数据库中，它是一个操做原子，即关系数据库在作任何操做的时候，属性是“不可分的”。不然就不是关系数据库了。
码：表中能够惟一肯定一个元组的某个属性（或者属性组），若是这样的码有不止一个，那么你们都叫候选码，咱们从候选码中挑一个出来作老大，它就叫主码。
全码：若是一个码包含了全部的属性，这个码就是全码。
主属性：一个属性只要在任何一个候选码中出现过，这个属性就是主属性。
非主属性：与上面相反，没有在任何候选码中出现过，这个属性就是非主属性。
外码：一个属性（或属性组），它不是码，可是它别的表的码，它就是外码。

2、6个范式
好了，上面已经介绍了咱们掌握范式所须要的所有基础概念，下面咱们就来说范式。首先要明白，范式的包含关系。一个数据库设计若是符合第二范式，必定也符合第一范式。若是符合第三范式，必定也符合第二范式…

第一范式（1NF）：属性不可分。
在前面咱们已经介绍了属性值的概念，咱们说，它是“不可分的”。而第一范式要求属性也不可分。那么它和属性值不可分有什么区别呢？给一个例子：

算法

name	tel		age
大宝	13612345678		22
小明	13988776655	010－1234567	21

Ps：这个表中，属性值“分”了。

数据库

name	tel		age
name	手机	座机	age
大宝	13612345678	021－9876543	22
小明	13988776655	010－1234567	21

Ps：这个表中，属性 “分”了。
这两种状况都不知足第一范式。不知足第一范式的数据库，不是关系数据库！因此，咱们在任何关系数据库管理系统中，作不出这样的“表”来。

第二范式（2NF）：符合1NF，而且，非主属性彻底依赖于码。
听起来好像很神秘，其实真的没什么。
一个候选码中的主属性也多是好几个。若是一个主属性，它不能单独作为一个候选码，那么它也不能肯定任何一个非主属性。给一个反例：咱们考虑一个小学的教务管理系统，学生上课指定一个老师，一本教材，一个教室，一个时间，你们都上课去吧，没有问题。那么数据库怎么设计？（学生上课表）安全

学生	课程	老师	老师职称	教材	教室	上课时间
小明	一年级语文（上）	大宝	副教授	《小学语文1》	101	14：30

一个学生上一门课，必定在特定某个教室。因此有（学生，课程）－>教室
一个学生上一门课，必定是特定某个老师教。因此有（学生，课程）－>老师
一个学生上一门课，他老师的职称能够肯定。因此有（学生，课程）－>老师职称
一个学生上一门课，必定是特定某个教材。因此有（学生，课程）－>教材
一个学生上一门课，必定在特定时间。因此有（学生，课程）－>上课时间
所以（学生，课程）是一个码。
然而，一个课程，必定指定了某个教材，一年级语文确定用的是《小学语文1》，那么就有课程－>教材。（学生，课程）是个码，课程却决定了教材，这就叫作不彻底依赖，或者说部分依赖。出现这样的状况，就不知足第二范式！
有什么很差吗？你能够想一想：
一、校长要新增长一门课程叫“微积分”，教材是《大学数学》，怎么办？学生还没选课，而学生又是主属性，主属性不能空，课程怎么记录呢，教材记到哪呢? ……郁闷了吧?(插入异常)
二、下学期没学生学一年级语文（上）了，学一年级语文（下）去了，那么表中将不存在一年级语文（上），也就没了《小学语文1》。这时候，校长问：一年级语文（上）用的什么教材啊？……郁闷了吧?(删除异常)
三、校长说：一年级语文（上）换教材，换成《大学语文》。有10000个学生选了这么课，改动好大啊！改累死了……郁闷了吧？（修改异常）
那应该怎么解决呢？投影分解，将一个表分解成两个或若干个表数据库设计

学生	课程	老师	老师职称	教室	上课时间
小明	一年级语文（上）	大宝	副教授	101	14：30

学生上课表新工具

课程	教材
一年级语文（上）	《小学语文1》

课程的表第三范式（3NF）：符合2NF，而且，消除传递依赖
上面的“学生上课表新”符合2NF，能够这样验证：两个主属性单独使用，不用肯定其它四个非主属性的任何一个。可是它有传递依赖！
在哪呢？问题就出在“老师”和“老师职称”这里。一个老师必定能肯定一个老师职称。
有什么问题吗？想一想：
一、老师升级了，变教授了，要改数据库，表中有N条，改了N次……（修改异常）
二、没人选这个老师的课了，老师的职称也没了记录……（删除异常）
三、新来一个老师，还没分配教什么课，他的职称记到哪？……（插入异常）
那应该怎么解决呢？和上面同样，投影分解：优化

学生	课程	老师	教室	上课时间
小明	一年级语文（上）	大宝	101	14：30

老师	老师职称
大宝	副教授

BC范式（BCNF）：符合3NF，而且，主属性不依赖于主属性
若关系模式属于第一范式，且每一个属性都不传递依赖于键码，则R属于BC范式。

一般
BC范式的条件有多种等价的表述：每一个非平凡依赖的左边必须包含键码；每一个决定因素必须包含键码。

BC范式既检查非主属性，又检查主属性。当只检查非主属性时，就成了第三范式。知足BC范式的关系都必然知足第三范式。
还能够这么说：若一个关系达到了第三范式，而且它只有一个候选码，或者它的每一个候选码都是单属性，则该关系天然达到BC范式。

通常，一个数据库设计符合3NF或BCNF就能够了。在BC范式以上还有第四范式、第五范式。

第四范式：要求把同一表内的多对多关系删除。

第五范式：从最终结构从新创建原始结构。

但在绝大多数应用中不须要设计到这种程度。而且，某些状况下，过于范式化甚至会对数据库的逻辑可读性和使用效率起到阻碍。数据库中必定程度的冗余并不必定是坏事情。若是你对第四范式、第五范式感兴趣能够看一看专业教材，从头学起，而且忘记我说的一切，以避免对你产生误导spa

数据库设计中的一些技巧设计

1. 原始单据与实体之间的关系　能够是一对1、一对多、多对多的关系。在通常状况下，它们是一对一的关系：即一张原始单据对应且只对应一个实体。在特殊状况下，它们多是一对多或多对一的关系，即一张原始单证对应多个实体，或多张原始单证对应一个实体。这里的实体能够理解为基本表。明确这种对应关系后，对咱们设计录入界面大有好处。　　〖例1〗：一份员工履历资料，在人力资源信息系统中，就对应三个基本表：员工基本状况表、社会关系表、工做简历表。这就是“一张原始单证对应多个实体”的典型例子。2. 主键与外键　通常而言，一个实体不能既无主键又无外键。在E—R 图中, 处于叶子部位的实体, 能够定义主键，也能够不定义主键(由于它无子孙), 但必需要有外键(由于它有父亲)。　　主键与外键的设计，在全局数据库的设计中，占有重要地位。当全局数据库的设计完成之后，有个美国数据库设计专家说：“键，处处都是键，除了键以外，什么也没有”，这就是他的数据库设计经验之谈，也反映了他对信息系统核心(数据模型)的高度抽象思想。由于：主键是实体的高度抽象，主键与外键的配对，表示实体之间的链接。3. 基本表的性质　　基本表与中间表、临时表不一样，由于它具备以下四个特性：　　 (1) 原子性。基本表中的字段是不可再分解的。　　 (2) 原始性。基本表中的记录是原始数据（基础数据）的记录。　　 (3) 演绎性。由基本表与代码表中的数据，能够派生出全部的输出数据。　　 (4) 稳定性。基本表的结构是相对稳定的，表中的记录是要长期保存的。　　理解基本表的性质后，在设计数据库时，就能将基本表与中间表、临时表区分开来。4. 范式标准　　基本表及其字段之间的关系, 应尽可能知足第三范式。可是，知足第三范式的数据库设计，每每不是最好的设计。为了提升数据库的运行效率，经常须要下降范式标准：适当增长冗余，达到以空间换时间的目的。　　〖例2〗：有一张存放商品的基本表，如表1所示。“金额”这个字段的存在，代表该表的设计不知足第三范式，由于“金额”能够由“单价”乘以“数量”获得，说明“金额”是冗余字段。可是，增长“金额”这个冗余字段，能够提升查询统计的速度，这就是以空间换时间的做法。　　在Rose 2002中，规定列有两种类型：数据列和计算列。“金额”这样的列被称为“计算列”，而“单价”和“数量”这样的列被称为“数据列”。　　表1 商品表的表结构　　商品名称商品型号单价数量金额　　电视机 29吋 2,500 40 100,000　　　　 5. 通俗地理解三个范式　　通俗地理解三个范式，对于数据库设计大有好处。在数据库设计中，为了更好地应用三个范式，就必须通俗地理解三个范式(通俗地理解是够用的理解，并非最科学最准确的理解)：　　第一范式：1NF是对属性的原子性约束，要求属性具备原子性，不可再分解；　　第二范式：2NF是对记录的唯一性约束，要求记录有唯一标识，即实体的唯一性；　　第三范式：3NF是对字段冗余性的约束，即任何字段不能由其余字段派生出来，它要求字段没有冗余。　　没有冗余的数据库设计能够作到。可是，没有冗余的数据库未必是最好的数据库，有时为了提升运行效率，就必须下降范式标准，适当保留冗余数据。具体作法是：在概念数据模型设计时遵照第三范式，下降范式标准的工做放到物理数据模型设计时考虑。下降范式就是增长字段，容许冗余。　　 6. 要善于识别与正确处理多对多的关系　　若两个实体之间存在多对多的关系，则应消除这种关系。消除的办法是，在二者之间增长第三个实体。这样，原来一个多对多的关系，如今变为两个一对多的关系。要将原来两个实体的属性合理地分配到三个实体中去。这里的第三个实体，实质上是一个较复杂的关系，它对应一张基本表。通常来说，数据库设计工具不能识别多对多的关系，但能处理多对多的关系。　　〖例3〗：在“图书馆信息系统”中，“图书”是一个实体，“读者”也是一个实体。这两个实体之间的关系，是一个典型的多对多关系：一本图书在不一样时间能够被多个读者借阅，一个读者又能够借多本图书。为此，要在两者之间增长第三个实体，该实体取名为“借还书”，它的属性为：借还时间、借还标志(0表示借书，1表示还书)，另外，它还应该有两个外键(“图书”的主键，“读者”的主键)，使它能与“图书”和“读者”链接。　　 7. 主键PK的取值方法　　 PK是供程序员使用的表间链接工具，能够是一无物理意义的数字串, 由程序自动加1来实现。也能够是有物理意义的字段名或字段名的组合。不过前者比后者好。当PK是字段名的组合时，建议字段的个数不要太多，多了不但索引占用空间大，并且速度也慢。　　 8. 正确认识数据冗余　　主键与外键在多表中的重复出现, 不属于数据冗余，这个概念必须清楚，事实上有许多人还不清楚。非键字段的重复出现, 才是数据冗余！并且是一种低级冗余，即重复性的冗余。高级冗余不是字段的重复出现，而是字段的派生出现。　　〖例4〗：商品中的“单价、数量、金额”三个字段，“金额”就是由“单价”乘以“数量”派生出来的，它就是冗余，并且是一种高级冗余。冗余的目的是为了提升处理速度。只有低级冗余才会增长数据的不一致性，由于同一数据，可能从不一样时间、地点、角色上屡次录入。所以，咱们提倡高级冗余(派生性冗余)，反对低级冗余(重复性冗余)。　　 9. E--R图没有标准答案　　信息系统的E--R图没有标准答案，由于它的设计与画法不是唯一的，只要它覆盖了系统需求的业务范围和功能内容，就是可行的。反之要修改E--R图。尽管它没有唯一的标准答案，并不意味着能够随意设计。好的E—R图的标准是：结构清晰、关联简洁、实体个数适中、属性分配合理、没有低级冗余。　　 10. 视图技术在数据库设计中颇有用　　与基本表、代码表、中间表不一样，视图是一种虚表，它依赖数据源的实表而存在。视图是供程序员使用数据库的一个窗口，是基表数据综合的一种形式, 是数据处理的一种方法，是用户数据保密的一种手段。为了进行复杂处理、提升运算速度和节省存储空间, 视图的定义深度通常不得超过三层。若三层视图仍不够用, 则应在视图上定义临时表, 在临时表上再定义视图。这样反复交迭定义, 视图的深度就不受限制了。　　对于某些与国家政治、经济、技术、军事和安全利益有关的信息系统，视图的做用更加剧要。这些系统的基本表完成物理设计以后，当即在基本表上创建第一层视图，这层视图的个数和结构，与基本表的个数和结构是彻底相同。而且规定，全部的程序员，一概只准在视图上操做。只有数据库管理员，带着多我的员共同掌握的“安全钥匙”，才能直接在基本表上操做。请读者想一想：这是为何？　　 11. 中间表、报表和临时表　　中间表是存放统计数据的表，它是为数据仓库、输出报表或查询结果而设计的，有时它没有主键与外键(数据仓库除外)。临时表是程序员我的设计的，存放临时记录，为我的所用。基表和中间表由DBA维护，临时表由程序员本身用程序自动维护。　　 12. 完整性约束表如今三个方面　　域的完整性：用Check来实现约束，在数据库设计工具中，对字段的取值范围进行定义时，有一个Check按钮，经过它定义字段的值城。　　参照完整性：用PK、FK、表级触发器来实现。　　用户定义完整性：它是一些业务规则，用存储过程和触发器来实现。　　 13. 防止数据库设计打补丁的方法是“三少原则”　　 (1) 一个数据库中表的个数越少越好。只有表的个数少了，才能说明系统的E--R图少而精，去掉了重复的多余的实体，造成了对客观世界的高度抽象，进行了系统的数据集成，防止了打补丁式的设计；　　 (2) 一个表中组合主键的字段个数越少越好。由于主键的做用，一是建主键索引，二是作为子表的外键，因此组合主键的字段个数少了，不只节省了运行时间，并且节省了索引存储空间；　　 (3) 一个表中的字段个数越少越好。只有字段的个数少了，才能说明在系统中不存在数据重复，且不多有数据冗余，更重要的是督促读者学会“列变行”，这样就防止了将子表中的字段拉入到主表中去，在主表中留下许多空余的字段。所谓“列变行”，就是将主表中的一部份内容拉出去，另外单独建一个子表。这个方法很简单，有的人就是不习惯、不采纳、不执行。　　数据库设计的实用原则是：在数据冗余和处理速度之间找到合适的平衡点。“三少”是一个总体概念，综合观点，不能孤立某一个原则。该原则是相对的，不是绝对的。“三多”原则确定是错误的。试想：若覆盖系统一样的功能，一百个实体(共一千个属性) 的E--R图，确定比二百个实体(共二千个属性) 的E--R图，要好得多。　　提倡“三少”原则，是叫读者学会利用数据库设计技术进行系统的数据集成。数据集成的步骤是将文件系统集成为应用数据库，将应用数据库集成为主题数据库，将主题数据库集成为全局综合数据库。集成的程度越高，数据共享性就越强，信息孤岛现象就越少，整个企业信息系统的全局E—R图中实体的个数、主键的个数、属性的个数就会越少。　　提倡“三少”原则的目的，是防止读者利用打补丁技术，不断地对数据库进行增删改，使企业数据库变成了随意设计数据库表的“垃圾堆”，或数据库表的“大杂院”，最后形成数据库中的基本表、代码表、中间表、临时表杂乱无章，不可胜数，致使企事业单位的信息系统没法维护而瘫痪。　　 “三多”原则任何人均可以作到，该原则是“打补丁方法”设计数据库的歪理学说。“三少”原则是少而精的原则，它要求有较高的数据库设计技巧与艺术，不是任何人都能作到的，由于该原则是杜绝用“打补丁方法”设计数据库的理论依据。　　 14. 提升数据库运行效率的办法　　在给定的系统硬件和系统软件条件下，提升数据库系统的运行效率的办法是：　　 (1) 在数据库物理设计时，下降范式，增长冗余, 少用触发器, 多用存储过程。　　 (2) 当计算很是复杂、并且记录条数很是巨大时(例如一千万条)，复杂计算要先在数据库外面，以文件系统方式用C++语言计算处理完成以后，最后才入库追加到表中去。这是电信计费系统设计的经验。　　 (3) 发现某个表的记录太多，例如超过一千万条，则要对该表进行水平分割。水平分割的作法是，以该表主键PK的某个值为界线，将该表的记录水平分割为两个表。若发现某个表的字段太多，例如超过八十个，则垂直分割该表，将原来的一个表分解为两个表。　　 (4) 对数据库管理系统DBMS进行系统优化，即优化各类系统参数，如缓冲区个数。　　 (5) 在使用面向数据的SQL语言进行程序设计时，尽可能采起优化算法。　　总之，要提升数据库的运行效率，必须从数据库系统级优化、数据库设计级优化、程序实现级优化，这三个层次上同时下功夫。