BDB (Berkeley DB)数据库简单介绍（转载）

时间 2020-09-14

原文原文链接

近期要使用DBD，因而搜了下相关的资料，先贴个科普性的吧：html

转自http://www.javaeye.com/topic/202990java

DB综述
DB最初开发的目的是以新的HASH訪问算法来取代旧的hsearch函数和大量的dbm实现（如AT&T的dbm，Berkeley的ndbm，GNU项目的gdbm）,DB的第一个发行版在1991年出现，当时还包括了B+树数据訪问算法。在1992年，BSD UNIX第4.4发行版中包括了DB1.85版。基本上以为这是DB的第一个正式版。在1996年中期，Sleepycat软件公司成立，提供对DB的商业支持。在这之后，DB获得了普遍的应用，当前最新版本号是4.3.27。linux

DB支持差点儿所有的现代操做系统，如LINUX、UNIX、WINDOWS等，也提供了丰富的应用程序接口，支持C、C++、JAVA、PERL、TCL、PYTHON、PHP等。DB的应用十分普遍，在很是多知名的软件中都能看到其身影。好比參考资料2中做者谈到利用DB在LINUX下实现内核级文件系统；參考资料3中经过实际測试数听说明DB提升了OPENLDAP的效率。LINUX下的软件包管理器RPM也使用DB管理软件包相关数据，可以使用命令file查看RPM数据文件夹/var/lib/rpm下的文件,则有形式例如如下的输出：算法

Dirnames: Berkeley DB (Btree, version 9, native byte-order)
Filemd5s: Berkeley DB (Hash, version 8, native byte-order)数据库

值得注意的是DB是嵌入式数据库系统，而不是常见的关系/对象型数据库，对SQL语言不支持，也不提供数据库常见的高级功能，如存储过程，触发器等。编程

DB的设计思想
DB的设计思想是简单、小巧、可靠、高性能。假设说一些主流数据库系统是大而全的话，那么DB就可称为小而精。DB提供了一系列应用程序接口（API），调用自己很是easy，应用程序和DB所提供的库在一块儿编译成为可执行程序。这样的方式从双方面极大提升了DB的效率。第一：DB库和应用程序执行在同一个地址空间，没有client程序和数据库server之间昂贵的网络通信开销，也没有本地主机进程之间的通信；第二：不需要对SQL代码解码，对数据的訪问直截了当。网络

DB对需要管理的数据见解很是easy，DB数据库包括若干条记录，每一个记录由keyword和数据（KEY/VALUE）构成。数据可以是简单的数据类型，也可以是复杂的数据类型，好比C语言中结构。DB对数据类型不作不论什么解释, 全然由程序猿自行处理，典型的C语言指针的"自由"风格。假设把记录当作一个有n个字段的表，那么第1个字段为表的主键，第2--n个字段相应了其余数据。DB应用程序一般使用多个DB数据库，从某种意义上看，也就是关系数据库中的多个表。DB库很是紧凑，不超过500K，但可以管理大至256T的数据量。数据结构

DB的设计充分体现了UNIX的基于工具的哲学，即若干简单工具的组合可以实现强大的功能。DB的每一个基础功能模块都被设计为独立的,也即意味着其使用领域并不局限于DB自己。好比加锁子系统可以用于非DB应用程序的通用操做，内存共享缓冲池子系统可以用于在内存中基于页面的文件缓冲。并发

DB核心数据结构
数据库句柄结构DB：包括了若干描写叙述数据库属性的參数，如数据库訪问方法类型、逻辑页面大小、数据库名称等；同一时候，DB结构中包括了大量的数据库处理函数指针，大多数形式为（*dosomething）(DB *, arg1, arg2, …)。当中最重要的有open,close,put,get等函数。函数

数据库记录结构DBT：DB中的记录由keyword和数据构成，keyword和数据都用结构DBT表示。实际上全然可以把keyword当作特殊的数据。结构中最重要的两个字段是 void * data和u_int32_t size，分别相应数据自己和数据的长度。

数据库游标结构DBC：游标（cursor）是数据库应用中常见概念，其本质上就是一个关于特定记录的遍历器。注意到DB支持多重记录（duplicate records），即多条记录有一样keyword，在对多重记录的处理中，使用游标是最easy的方式。

数据库环境句柄结构DB_ENV：环境在DB中属于高级特性，本质上看，环境是多个数据库的包装器。当一个或多个数据库在环境中打开后，环境可以为这些数据库提供多种子系统服务，好比多线/进程处理支持、事务处理支持、高性能支持、日志恢复支持等。

DB中核心数据结构在使用前都要初始化，随后可以调用结构中的函数（指针）完毕各类操做，最后必须关闭数据结构。从设计思想的层面上看，这样的设计方法是利用面向过程语言实现面对对象编程的一个典范。

DB数据訪问算法
在数据库领域中,数据訪问算法相应了数据在硬盘上的存储格式和操做方法。在编写应用程序时，选择合适的算法可能会在运算速度上提升1个甚至多个数量级。大多数数据库都选用B+树算法，DB也不例外，同一时候还支持HASH算法、Recno算法和Queue算法。接下来，咱们将讨论这些算法的特色以及怎样依据需要存储数据的特色进行选择。

B+树算法：B+树是一个平衡树，keyword有序存储，并且其结构能随数据的插入和删除进行动态调整。为了代码的简单，DB没有实现对keyword的前缀码压缩。B+树支持对数据查询、插入、删除的常数级速度。keyword可以为随意的数据结构。

HASH算法：DB中实际使用的是扩展线性HASH算法（extended linear hashing），可以依据HASH表的增加进行适当的调整。keyword可以为随意的数据结构。

Recno算法：要求每一个记录都有一个逻辑纪录号，逻辑纪录号由算法自己生成。实际上，这和关系型数据库中逻辑主键一般定义为int AUTO型是同一个概念。Recho创建在B+树算法之上，提供了一个存储有序数据的接口。记录的长度可以为定长或不定长。

Queue算法：和Recno方式接近, 仅仅只是记录的长度为定长。数据以定长记录方式存储在队列中，插入操做把记录插入到队列的尾部，相比之下插入速度是最快的。

对算法的选择首先要看keyword的类型，假设为复杂类型，则仅仅能选择B+树或HASH算法，假设keyword为逻辑记录号，则应该选择Recno或Queue算法。当工做集keyword有序时，B+树算法比較合适；假设工做集比較大且基本上keyword为随机分布时，选择HASH算法。Queue算法仅仅能存储定长的记录，在高的并发处理状况下，Queue算法效率较高；假设是其余状况，则选择Recno算法，Recno算法把数据存储为平面文件格式。