揭秘高性能DolphinDB

DolphinDB Database 是由浙江智臾科技有限公司自主研发,于2018年初发布的高性能的磁盘与内存混合型和列式分布式数据库产品。DolphinDB集成了功能强大的编程语言和高容量高速度的流数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。node

DolphinDB的主要竞争优点体如今四个“快”:运行快、学习快、部署快和开发快。为何仅20多M的软件可以超越市场上的同类产品呢?本文将从DolphinDB的设计思路和技术架构两方面来揭开谜底。算法

1、设计思路数据库

DolphinDB采用全新的设计思路,把编程语言、数据库和分布式计算完美地融合在一块儿。咱们能够经过下面这张图来更好地理解DolphinDB的设计思路。编程

  • 数据库和分布式计算融合

在传统数据库时代,数据的存储和分析计算,一般是分离的。Oracle和SQL Server等数据库服务器负责数据的存储和检索,Matlab和SAS等工做站软件负责数据的分析和计算。可是随着海量数据的到来,这种分离变得愈来愈困难,哪怕是从分布式数据库取千分之一,万分之一的数据均可能让一个工做站的内存没法支撑。因此,咱们的一个基本见解是,在海量数据时代,分布式数据库和分布式计算将走向融合,数据和计算是紧密结合在一块儿的。经过这种融合,咱们能够减小频繁的数据移动以及解决数据和计算资源不匹配的问题。服务器

  • 编程语言和分布式计算融合

经过将编程语言和分布式计算融合,用户无需花费大量时间和精力来编写代码实现分布式计算。DolphinDB的脚本语言既能够轻松地调用分布式文件系统(DFS)和远程过程调用(RPC)的基础功能,也能够快速地建立分布式SQL须要的自定义函数,实现更为灵活的Pipeline、Map-Reduce和迭代计算等分布式应用。用DolphinDB脚本编写的分布式程序(应用),无需编译、打包和部署,能够在线使用。这大大提升了数据科学家的工做效率。网络

  • 数据库和编程语言融合

在传统的数据库时代,咱们更看重数据的写入,因此咱们强调数据库的一致性、原子性、持久性等等,而用于分析的SQL语句功能则相对简单,复杂的分析和计算一般由更高级的编程语言(譬如C++, Java等)来完成。在海量数据时代,咱们更看重数据的读取,也就是经过对海量数据的分析,发掘数据背后的价值,数据分析的时效性则对企业的竞争能力相当重要。如今不少大数据系统主要实现了SQL接口,表达能力有限,很难知足更加复杂的数据分析和算法实现,影响开发效率。因此咱们认为SQL语句和更高级的编程语言也将走向融合。架构

2、技术架构负载均衡

DolphinDB的高性能不只仅得益于全新的设计思路,还获益于独特的技术架构。编程语言

DolphinDB database 采用的是原创的架构(下文称为DolphinDB架构),而且引入了分布式文件系统(DFS),而市场上的一些数据仓库,如Teradata、IBM Netezza、Greenplum等都是采用主流的MPP(Massively Parallel Processing,大规模并行处理)架构的。分布式

那么DolphinDB架构和MPP架构有什么区别呢?

经过下面两张图能够直观地看出DolphinDB架构(左)和MPP架构(右)的区别。

MPP架构是指一个系统拥有多个计算节点,每一个节点都有独立的内存、操做系统和存储磁盘,它们之间是不存在共享的。所以,MPP架构也被称为shared nothing架构。

DolphinDB架构拥有多个数据节点,但在数据库层面不存在领导节点。每一个数据节点虽然拥有本地的存储设备,数据节点与存储是经过DFS进行交互的。

为何DolphinDB采用原创架构而不使用主流的MPP架构?

与MPP架构相比,DolphinDB架构具备如下的优点:

  • 资源获得充分利用

MPP采用树状结构,分区粒度较粗,容易出现数据分布不均衡,或在用户不饱和或查询数据只存在部分节点时出现资源闲置。DolphinDB的数据节点经过DFS共享存储,进行全局优化,数据均匀地分布在各节点上,能更充分的利用集群资源。

  • 查询效率更高

MPP架构一般会将一个任务发送到多个节点执行,即使在海量数据中查找很小的一部分数据,也是如此。DolphinDB的分布式文件系统和多列组合分区方案可以支持单表千万级的分区,能快速肯定查询相关的分区和所在的节点,提升了查询的效率。

  • 便于数据迁移和高可用

MPP是经过Hash计算来肯定数据行所在的物理机器,存储位置的不透明致使了MPP的数据迁移和高可用较难实现。在DolphinDB中,存储逻辑与存储位置分离。当存储逻辑发生改变时,不须要改变数据的存储位置,只须要修改DFS master中的元数据,修改节点指向的存储位置便可。

  • 扩展性高

当MPP集群规模和业务数据量达到必定数量时,数据库的元数据管理将会十分困难。一旦出错,很难恢复。MPP架构通常只能扩展到100个节点。 DolphinDB采用相似HDFS这样的分布式文件系统,由name node统一管理元数据、,自动管理分区数据和副本,提升了容错性和可扩展性。DolphinDB能够扩展到更多的节点。

  • 实现负载均衡

MPP架构中客户端经过领导节点与集群链接。领导节点除了负责网络通信以外,还负责将各个节点返回的数据合并,并做进一步处理,很容易成为整个系统的瓶颈。DolphinDB在数据库层面采用点对点的架构,每个数据节点均可以做为协调者与客户端链接,所以DolphinDB很容易实现负载均衡。

3、总结

DolphinDB全新的设计思路和独特技术架构决定了它的高性能。DolphinDB不只适用于大规模结构化数据快速入库和即席查询,还特别适用于时间序列数据以及实时流数据的处理和分析。

官网:www.dolphindb.cn

电话:0571- 8285 3925

邮箱:media@dolphindb.com