谈谈数据库原理

时间 2019-11-10

标签谈谈数据库原理栏目 SQL 繁體版

原文原文链接

注：文中讲述的原理是推理和探讨，和现实中的实现不必定彻底相同。html

数据库呢，主要分为 5 大部分，数据库

1 Sql 分析器服务器

2 查询(更新)计划器并发

3 数据存储检索高并发

4 优化策略性能

5 事务（Transaction）优化

第一个部分 Sql 分析器呢，涉及到编译原理语法分析的知识和关系运算的知识，但这并不难，我写了一个项目 SelectDataTable ，能够解析简单的 Sql 语句，经过 Sql 语句在 DataTable 中查询数据，能够参考： http://www.javashuo.com/article/p-qbebfnqj-hd.html设计

第二个部分查询(更新)计划器，这个部分就是把 Sql 解析的结果转换为数据存储检索的指令。日志

第三个部分数据存储检索，就是数据如何在磁盘上存储和检索。咱们来详细谈一下这个部分。htm

数据在磁盘上存储检索的基础，是数据块（Data Block），就是说，把要存储的数据分红一个一个的数据块。好比，咱们能够定义数据块的大小是 4K 。

那么，在数据库里，数据是以表和表记录的形式存在的，那么就把表记录放到数据块里存储。固然一笔表记录的大小不能超过数据块的大小。

那么如何检索呢？将数据块从磁盘读取到内存，在内存里进行检索。

如何更新呢？若是数据所在的数据块已经在内存里，就先对内存里的数据块更新，在适当的时候再批量更新到磁盘上。若是数据不在内存里，须要直接更新磁盘。从这里能够看出来，更新可能频繁写磁盘，须要频繁移动磁头，在固态硬盘的时代，这个问题可能会改善不少。另外也能够看出来，若是内存足够大，那么能够把大量的数据加载到内存里在内存里查询更新，在适当的时候才批量写入磁盘，这样处理速度能够加快。换句话说，内存的充分对于数据库效率很重要。实际的经验中，看到的状况大体也是这样。 ^ ^ 有充分的内存，数据库能够把整张表的资料和索引都加载到内存，这样查询和更新的速度是很快的。而经验中也常常会有这样的经验：第一次查询的时候会比较慢，后面就快了。实际上就跟数据库加载数据到内存的这个原理有关。

但上面说的有一点也不对。若是数据已经在内存里，那么更新了内存里的数据后，应当即更新磁盘上的数据。否则若是服务器忽然断电，数据就丢失了。对于客户端来讲，执行 insert update delete 成功后，就意味着数据已经持久化。

数据库一般会把数据存放在一个文件里。好比 Sql Server 。经过 FileStream 的 Position 属性，咱们能够指定位置写入和读取数据块，以及指定位置直接更新数据块里的数据。这样，文件就能够看做一块地址空间，就像内存同样，能够像管理内存同样管理。固然，这是从地址这个角度来看是这样。从硬件属性来看，仍是要考虑磁盘的机械读写的特性，顺序读写的效率比随机读写好，因此听说 B Tree 索引就是顺序存储索引的，而 B Tree 是使用最普遍的索引了吧！

但总的来讲，固态硬盘的出现，会使这些问题改善不少。

第四个部分，优化策略主要是临时索引和并行计算等。临时索引是颇有用的，它可使数据库变得 “傻瓜化” ，不须要刻意的去设计和创建索引，就能够得到高效的查询性能。另外，彻底依靠人工设计和创建索引也是很大的工做量，同时，固定的索引会在每次更新表时都要更新索引，同时索引会一直占用存储空间，因此临时索引还让数据库的使用轻松灵活了。

另外就是并行计算，并行计算看起来很诱人，很美好，可是仔细想一想好像不是那么回事。数据库一般处于并发的场景下。在高并发下，每一个 CPU 核都会处理 n 个请求，若是还要把每一个请求的查询任务分红若干个任务并行执行，好像意义不大。

第五个部分，事务是数据库的重头戏。事务经过事务日志（Transaction Log）实现。当一个事务开始时，首先会在事务日志中记录该事务已开始，而且只有在事务日志中记录日志成功，才会开始下一步的操做。对于事务来说，为了保证数据完整性，或者说 ACID ，须要这样严谨的进行。能够说是 “环环相扣” 。接下来就开始执行更新操做，每个更新操做，会分为 3 个步骤： 1 在事务日志中记录 Begin（包括要执行什么样的操做的信息）， 2 执行更新操做， 3 在事务日志中记录 End 。事务完成后，会再记录整个事务 End 。只有到这一步，整个事务才算结束，更新才完全生效。正常状况下，若是须要回滚，能够根据事务日志来回滚，这容易理解，就不详细描述了。在异常状况下，好比服务器忽然断电，在这样的状况下，要如何处理，才能使数据正确呢？数据库在从新启动时，会检查事务日志，会发现未完成的事务日志（没有记录 End 的），数据库会对未完成的事务进行回滚。

事务另一个方面就是锁（Lock）。在事务开始时，会锁定表，这意味着从如今起，不容许对表开始新的操做，同时要求在当前全部对表的操做(包括 select) 结束后，才会开始本次事务的操做。那要怎么才能肯定当前对表的操做都结束了呢？这大概仍是须要经过锁。普通的 insert update delete select 也须要得到锁，这个锁应该是行级锁。 insert update delete 应该是独占锁， select 能够是共享锁。

基本上就这些。

按照这个原理，能够写一个数据库。呵呵呵呵

谈谈 数据库原理

谈谈数据库原理