数据库设计,一个软件项目成功的基石。不少从业人员都认为,数据库设计其实不那么重要。现实中的情景也至关雷同,开发人员的数量是数据库设计人员的数倍。多数人使用数据库中的一部分,因此也会把数据库设计想的如此简单。其实否则,数据库设计也是门学问。sql
Edgar Frank Codd(埃德加·弗兰克·科德)被誉为“关系数据库之父”,并由于在数据库管理系统的理论和实践方面的杰出贡献于1981年获图灵奖。在1985年,Codd 博士发布了12条规则,这些规则简明的定义出一个关系型数据库的理念,它们被做为全部关系数据库系统的设计指导性方针。安全
(一)规划阶段数据结构
规划阶段的主要工做是对数据库的必要性和可行性进行分析。肯定是否须要使用数据库,使用哪一种类型的数据库,使用哪一个数据库产品。架构
(二)概念阶段框架
概念阶段的主要工做是收集并分析需求。识别需求,主要是识别数据实体和业务规则。对于一个系统来讲,数据库的主要包括业务数据和非业务数据,而业务数据的定义,则依赖于在此阶段对用户需求的分析。须要尽可能识别业务实体和业务规则,对系统的总体有初步的认识,并理解数据的流动过程。理论上,该阶段将参考或产出多种文档,好比“用例图”,“数据流图”以及其余一些项目文档。若是可以在该阶段产出这些成果,无疑将会对后期进行莫大的帮助。固然,不少文档已超出数据库设计者的考虑范围。并且,若是你并不精通该领域以及用户的业务,那么请放弃本身独立完成用户需求分析的想法。用户并非技术专家,而当你自身不能扮演“业务顾问”的角色时,请你选择与项目组的相关人员合做,或者将其视为风险呈报给PM。再次强调,大多数状况,用户只是行业从业者,而非职业技术人员,咱们仅仅从用户那里收集需求,而非依赖于用户的知识。运维
记录用户需求时,可使用一些技巧,固然这部份内容有些可能会超出数据库设计人员的职责:数据库设计
此外,必须严谨处理业务规则,并详细记录。在以后的阶段,将会根据这些业务规则进行设计。分布式
当该阶段结束时,你应该可以回答如下问题:
而且获得以下信息:
(三)逻辑阶段
逻辑阶段的主要工做是绘制E-R图,或者说是建模。建模工具不少,有不一样的图形表示方法和软件。这些工具和软件的使用并不是关键,笔者也不建议读者花大量时间在建模方法的选择上。对于大多数应用来讲,E-R图足以描述实体间的关系。建模关键是思想而不是工具,软件只是起到辅助做用,识别实体关系才是本阶段的重点。
除了实体关系,咱们还应该考虑属性的域(值类型、范围、约束)
(四)实现阶段
实现阶段主要针对选择的RDBMS定义E-R图对应的表,考虑属性类型和范围以及约束。
(五)物理阶段
物理阶段是一个验证并调优的阶段,是在实际物理设备上部署数据库,并进行测试和调优。
(一)下降对数据库功能的依赖
功能应该由程序实现,而非DB实现。缘由在于,若是功能由DB实现时,一旦更换的DBMS不如以前的系统强大,不能实现某些功能,这时咱们将不得不去修改代码。因此,为了杜绝此类状况的发生,功能应该有程序实现,数据库仅仅负责数据的存储,以达到最低的耦合。
(二)定义实体关系的原则
当定义一个实体与其余实体之间的关系时,须要考量以下:
关系与表数量
(三)列意味着惟一的值
若是表示坐标(0,0),应该使用两列表示,而不是将“0,0”放在1个列中。
(四)列的顺序
列的顺序对于表来讲可有可无,可是从习惯上来讲,采用“主键+外键+实体数据+非实体数据”这样的顺序对列进行排序显然能获得比较好的可读性。
(五)定义主键和外键
数据表必须定义主键和外键(若是有外键)。定义主键和外键不只是RDBMS的要求,同时也是开发的要求。几乎全部的代码生成器都须要这些信息来生成经常使用方法的代码(包括SQL文和引用),因此,定义主键和外键在开发阶段是必须的。之因此说在开发阶段是必须的是由于,有很多团队出于性能考虑会在进行大量测试后,在保证参照完整性不会出现大的缺陷后,会删除掉DB的全部外键,以达到最优性能。笔者认为,在性能没有出现问题时应该保留外键,而即使性能真的出现问题,也应该对SQL文进行优化,而非放弃外键约束。
(六)选择键
1 人工键与天然键
人工健——实体的非天然属性,根据须要由人强加的,如GUID,其对实体毫无心义;天然健——实体的天然属性,如身份证编号。
人工键的好处:
人工键的缺点:
笔者建议所有使用人工键。缘由以下:
笔者的另外一个建议是——每张表都须要有一个对用户而言有意义的天然键,在特殊状况下也许找不到这样一个项,此时可使用复合键。这个键我在程序中并不会使用其做为惟一标识,可是却能够在对数据库直接进行查询时使用。
使用人工键的另外一根弊端,主要源自对查询性能的考量,所以选择人工键的形式(列的类型)很重要:
2 智能健与非智能键
智能键——键值包含额外信息,其根据某种约定好的编码规范进行编码,从键值自己能够获取某些信息;非智能键,单纯的无心义键值,如自增的数字或GUID。
智能键是一把双刃剑,开发人员偏心这种包含信息的键值,程序盼望着其中潜在的数据;数据库管理员或者设计者则讨厌这种智能键,缘由也是很显然的,智能键对数据库是潜在的风险。前面提到,数据库设计的原则之一是不要把具备独立意义的值的组合实现到一个单一的列中,应该使用多个独立的列。数据库设计者,更但愿开发人员经过拼接多个列来获得智能键,即以复合主键的形式给开发人员使用,而不是将一个列的值分解后使用。开发人员应该接受这种数据库设计,可是不少开发者却想不明白二者的优略。笔者认为,使用单一列实现智能键存在这样一个风险,就是咱们可能在设计阶段没法预期到编码规则可能会在后期发生变化。好比,构成智能键的局部键的值用完而引发规则变化或者长度变化,这种编码规则的变化对于程序的有效性验证与智能键解析是破坏性的,这是系统运维人员最不但愿看到的。因此笔者建议若是须要智能键,请在业务逻辑层封装(使用只读属性),不要再持久化层实现,以免上述问题。
(七)是否容许NULL
关于NULL咱们须要了解它的几个特性:
那么咱们是否应该容许列为空呢?笔者认为这个问题的答案受到咱们的开发语言的影响。以C#为例,由于引入了可空类型来处理数据库值类型为NULL的情形,因此是否容许为空对开发者来讲意义并不大。但有一点必须注意,就是验证非空必需要在程序集进行处理,而不应依赖于DBMS的非空约束,必须确保完整数据(全部必须的属性均被赋值)到达DB(所谓的“安全区”,咱们必须定义在多层系统中那些区域获得的数据是安全而纯净的)。
(八)属性切割
一种错误想法是,属性与列是1:1的关系。对于开发者,咱们公开属性而非字段。举个例子来讲,对于实体“员工”有“名字”这一属性,“名字”能够再被分解为“姓”和“名”,对于开发人员来讲,显然第二种数据结构更受青睐(“姓”和“名”做为两个字段)。因此,在设计时咱们也应该根据须要考虑是否切割属性。
(九)规范化——范式
当笔者还在大学时,范式是学习关系型数据库时最头疼的问题。我想也许会有读者仍然不理解范式的价值,简单来讲——范式将帮助咱们来保证数据的有效性和完整性。规范化的目的以下:
规范化旨在——挑出复杂的实体,从中抽取出简单的实体。这个过程一直持续下去,直到数据库中每一个表都只表明一件事物,而且表中每一个描述的都是这件事物为止。
1 规范化实体和属性(去除冗余)
1NF:每一个属性都只应表示一个单一的值,而非多个值。
须要考虑几点:
当前设计不符合1NF的“臭味”:
2 属性间的关系(去除冗余)
2NF-实体必须符合1NF,每一个属性描述的东西都必须针对整个键(能够理解为oop中类型属性的内聚性)。
当前设计不符合2NF的“臭味”:
3NF-实体必须符合2NF,非键属性不能描述其余非键属性。(与2NF不一样,3NF处理的是非键属性和非键属性之间的关系,而不是和键属性之间的关系。
当前设计不符合3NF的“臭味”:
BCNF-实体知足第一范式,全部属性彻底依赖于某个键,若是全部的断定都是一个键,则实体知足BCNF。(BCNF简单地扩展了之前的范式,它说的是:一个实体可能有若干个键,全部属性都必须依赖于这些键中的一个,也能够理解为“每一个键必须惟一标识实体,每一个非键熟悉必须描述实体。”
3 去除实体组合键中的冗余
4NF-实体必须知足BCNF,在一个属性与实体的键之间,多值依赖(一条记录在整个表的惟一性由多个值组合起来决定的)不能超过一个。
当前设计不符合4NF的“臭味”:
4 尽可能将全部关系分解为二元关系
5NF-实体必须知足4NF,当分解的信息无损的时候,确保全部关系都被分解为二元关系。
5NF保证在第四范式中存在的任何能够分解为实体的三元关系都被分解。有的三元关系能够在不丢失信息的前提下被分解为二元关系,当分解为两个二元关系的过程要丢失信息时,关系被宣称为处于第四范式中。因此,第五范式建议是,最好把现有的三元关系都分解为3个二元关系。
须要注意的是,规范化的结果多是更多的表,更复杂的查询。所以,处理到何种程度,取决于性能和数据架构的多方考量。建议规范化到第四范式,缘由是5NF的判断太过隐晦。例如:表X(老师,学生,课程)是一个三元关系,能够分解为表A(老师,学生),表B(学生,课程),表C(老师,课程)。表X表示某个老师是上某个学生的某个课程的老师;表A表示老师教学生;表B表示学生上课;表C表示老师教课。单独看是没法发现问题的,可是从数据出发,"表X=表A+表B+表C"并不必定成立,即不能经过链接构建分解前的数据。由于可能有多种组合,丧失了表X反馈出的业务规则。这种现象,容易在设计阶段被忽略,但好在在开放阶段会被显现,并且并不常常发生。
推荐作法:
(十)选择数据类型(MS SQL 2008)
MS SQL的经常使用类型:
精确数字
不会发生精度损失
bit tinyint smallint int bigint decimal
近似数字
对于极值可能发生精度损失
float(N) real
日期和时间
date time smalldatetime datetime datetime2 datetimeoffset
二进制数据
bingary(N) varbinary(N) varbinary(max)
字符(串)数据
char(N) varchar(N) varchar(max) nchar(N) nvarchar(N) nvarchar(max)
存储任意数据
sql_variant
时间戳
timestamp
GUID
uniqueidentifier
XML
不要试图使用该类型规避1NF
xml
空间数据
geometry geography
层次数据
heirarchyid
MS SQL中不在支持的或糟糕的类型选择
经常使用类型选择:
类型选择的最基本规则是选择知足须要的最轻的类型,由于这样查询更快。
bool
建议使用bit而非char(1),由于开发语言对其支持觉好,能够直接映射为bool或bool?。
大值数据
使用全部备选类型中最小的那种,类型越大,查询越慢,当字节大于8000时,应使用max。
主键
自增主键根据预期范围选择int或bigint,GUID使用uniqueidentifier而非varchar(N)。
(十一)优化并行
设计DB时就应该考虑到对并行进行优化,好比,MS SQL中的timestamp类型就是极好的选择。