[译]从磁盘结构到B+树

时间 2019-11-07

标签磁盘结构繁體版

原文原文链接

本篇文章来自Youtube上的一个视频，以为讲得相对不错。连接以下：www.youtube.com/watch?v=aZj…数据库

disk结构

简单来讲：按照时钟方向分，disk由不少个sector组成，编号为0-N。按照从外到内分，disk又由多个track组成，编号为0-N。sector和track交叉的地方，叫作block，每一个block有本身的address，能够用(track_no,sector_no)表示。每一个block的大小是同样的，具体的大小要看实际状况，在这里，咱们假设一个block的大小是512bytes。数组

须要十分明确的一点是：不管是读操做，仍是写操做，都是以block为单位进行的。微信

在block内部，能够看做是一个数组结构，坐标从0到511。每一个byte都有一个address，这个称为offset。因此咱们能够把disk上的每个byte用(track_no,sector_no,offset)的形式表示。数据结构

在计算机中，disk的结构能够这么简要地表示。dom

其中有一个读写头，每一个时刻，读写头对准了disk上的其中一个block(track_no,sector_no)。经过旋转，能够改变sector_no，经过伸缩读写头，能够改变track_no。性能

还有一点，也是须要明确的：**只有disk上的数据被加载到RAM（random access memory），才能被程序使用。**或者说，才是真正对程序有用的。优化

如何优化RAM中数据的效率，这门学问叫作数据结构；如何优化disk中数据的效率，这门学问叫作DBMS，也就是大部分数据库所要研究的内容。3d

disk是如何存储数据（特值定数据库数据）的

如今有一个employee table，其中有这些字段，每一个字段的大小如图所示，一个record的大小总计为128 bytes。指针

总共有100行数据：cdn

每一个block能够存4行数据。存这100条数据，须要25个block。若是如今咱们须要查询其中的一条数据，最多就须要查询25个block。

什么是索引

咱们建一个简单的索引，有两个字段，一个eid，表示employee的id，还有一个字段pointer，指向数据存储在disk上的位置。empolyee中的每一行，在index上都有一条记录。

那么咱们又是怎么存储这个索引的呢？这里咱们假设仍是所有存在disk上（固然你彻底能够选择直接存在内存里）。那么这个索引须要占据多少个block呢？eid大小为10bytes，pointer大小为6bytes，因此一行索引就有16个bytes大小。100条索引就须要占据100 * 16 / 512 -> 4个block。

那么如今要查询employee表中的某一条数据，最多须要查询多少个block呢？答案是4+1=5个。效率比以前要高了不少。