掌握6大模块、7个核心概念！帮你搞定Mycat中间件#导入MD文档图片#

时间 2021-08-12

标签前端 node mysql 算法 sql 数据库编程后端缓存服务器栏目 MySQL 繁體版

原文原文链接

开篇

近今年里随着经济的飞速发展，企业的业务也在不断膨胀，做为业务支撑的信息系统特别是数据库系统也面临史无前例的压力，行业应用所产生的数据呈爆炸式地增加。数据从原来的GB级别迅速增常到TB甚至是PB的规模，已经远远超过传统计算技术的要求，原来集中式的存储方式已经没法知足数据存储的要求，此时分布式数据存储因为良好的透明性、数据冗余性、扩展性、自治性逐渐进入人们的视野。为了更好的使用和管理分布式数据库，业内推出了很多优秀的分布式数据库中间件，Mycat就是其中之一，今天就来看看Mycat的架构和实现原理。本篇文章会学到如下内容：前端

分布式数据存储与Mycat
Mycat架构介绍
Mycat核心概念及配置

分布式数据存储与Mycat

众所周知，在分布式数据库的使用场景下，数据的存储不像集中式数据库那样都存放在一台服务器的一个数据库中，而是会分布在不一样的服务器的不一样数据库中。而应用程序的会根据不一样的数据库进行访问，如图1 所示，应用程序须要根据访问的数据库不一样：数据库一、数据库二、数据库3使用不一样的数据库链接，若是说某张数据表在三个数据库中都存在，也须要使用特定的方式对其进行访问，能够说在应用程序这端访问起来是比较麻烦的。node

图1 分布式的数据库队增长了应用程序访问的复杂度mysql

正由于应用程序在访问分布式数据库的时候会遇到相似的问题，因此引入了数据库中间件来简化应用程序须要面对的问题。如图2所示，在应用程序和数据库中间引入Mycat数据库中间件之后，让应用程序的编程更加方便，它不用在面对分布式的数据库，而只用针对Mycat中间件进行数据库编程就能完成对应的数据操做，而且适用于如下几种场景：算法

读写分离：能够经过Mycat针对数据库1进行写操做，而对数据库2和3进行读操做。若是在写服务器出现宕机的状况，Mycat能够将写的请求暂时转移到其余的数据库服务器上，保证数据库的可用性。
垂直分表分库：将订单表存放到数据库1和2中，将商品表存放到数据库3中。也就是把不一样的表放在不一样的库中。
水平分表分库：将订单表的不一样记录经过分片算法（例如：hash取模）分表存放到数据库1和2中。也就是将相同表的不一样数据放到不一样库的表中。
访问不一样的数据库：数据库1和2对应访问的就是MySQL数据库，而数据库3访问的是Oracle数据库。
控制应用程序到数据库的链接数量：每个数据库链接都会占用数据库服务器的资源，每一个数据库服务器可以链接的请求也是有限的，这里Mycat能够控制前端应用请求数据库服务器的链接数量，保证数据库服务器的高可用。

换句话说，当应用程序发起一条SQL语句的时候，不用关心数据库存放在哪一个服务器，以及数据库表是否作了分表分库，只用将要查的数据告诉Mycat就能够了，Mycat在考虑上述场景以后将结果返回给应用程序，让开发者更加方便快捷地操做数据。sql

图2 引入Mycat协助应用程序实现读写分离、分表分库操做数据库

上面描述的这些数据操做若是在没有Mycat中间件的状况须要在应用程序端维护大量的代码，而有了Mycat以后应用程序只须要针对Mycat进行配置，而且对其变成就能完成这些操做。编程

Mycat是一个开源的面相企业应用开发的数据库中间件，支持大数据库集群、事物、ACID。适用于高可用性、数据库读写分离、数据分级存储保障、大型数据库的分表分库以及并行计算、数据库路由以及整合诸如MySQL、Oracle、SQL Server等数据库。因为Mycat开源中间件有一个发展的过程，每一个版本的迭代都会遇到一些问题，目前已经更新到了Mycat 2.0是一个相对稳定的版本。若是有条件的同窗尽可能使用最新版本，或者使用Mycat 1.6.5 以上的版本，其修正了一些经常使用SQL函数的问题。不过Mycat也不是万能的依旧会存在一些问题，咱们这里把它的优缺点列出以下表格方便你们参考。后端

优势缓存	缺点服务器
拆分后业务清晰，拆分规则明确	部分业务表没法join，只能经过接口调用
系统之间容易扩展和整合	跨库事务难以处理
数据维护简单	垂直切分后某些业务数据过于庞大，仍然存在单体性能瓶颈
解决了单库大数据、高并发的性能瓶颈	拆分规则很难抽象
拆分规则封装好，对应用端几乎透明，开发人员无需关心拆分细节	分片事务一致性难以解决，须要经过XA或者借助其余分布式事务方式，例如：Redis、Zookeeper。
提升了系统的稳定性和负载能力	二次扩展时，数据迁移、维护难度大

Mycat 架构介绍

上面讲到了Mycat在分布式数据库中起到的做用，让应用程序的开发专一于业务自己，把分表分库、读写分离、访问不一样数据以及控制数据库链接的问题都交给Mycat来处理。那么Mycat是经过怎样的架构实现上述功能的呢，下面就和我一块儿来看看Mycat的组件和架构。

从逻辑上划分如下六个模块。

通讯协议模块：主要负责底层通讯功能，例如收发数据、线程回调等工做。采用Reactor、Proctor模式，在网络IO架构中实现了NIO和AIO的方式。
SQL执行模块：顾名思义，其接受到要执行的SQL 之后经过数据库链接模块链接到数据库，经过链接池获取目标数据库，再经由SQL路由解析把SQL语句分发到数据库节点中进行执行。
路由解析模块：当Mycat实现分表分库功能的时候，路由就显得很是重要了。该模块当收到应用程序请求的查询语句之后，会链接后端的数据，经过配置文件的规则设置，将请求路由到对应的数据库的表中进行查询。同时该模块还肩负SQL解析的职能，须要对SQL语句的EXPLAIN、SET、SHOW、SELECT等命令进行解析，从而获取表名、条件、字段列表等信息。同时还能够对SQL语句进行改写。
数据库链接模块：主要负责建立、管理、维护后端的数据库以及对应的数据库链接池。而且经过链接池机制对数据库链接的生命周期进行管理。
结果集处理模块：当查询结果返回以前须要将其进行汇总、排序。特别是针对数据分片的状况，返回的数据来自不一样的数据库服务器和表，须要将这些数据进行必要的汇总才能返回给应用程序。
监控管理模块：主要对Mycat中的链接、内存等资源进行监控和管理。监控参数包括：链接数、缓存命中数等。

上面六个模块看上去比较抽象，若是理清逻辑顺序记忆起来仍是比较方便的。通信协议模块接受到应用程序的SQL请求，会将其交给SQL执行模块，执行模块解析SQL以后须要知道访问哪些节点上的数据库。因而，它请求路由解析模块，再了解须要访问哪些数据库之后，经过数据库链接模块创建数据库链接，而且分发SQL到对应数据库上执行。将返回的数据经过结果集处理模块，汇总、排序，最后返回给应用程序。监控管理模块就好像一个大管家监视Mycat中的链接、内存等资源使用状况。

若是将上面的组件经过Mycat的处理流程展现的话，如图3所示，整个图由上、中、下3步部分组成。上面的部分表明客户端，其承载多个应用程序会向处在中间的Mycat服务发起SQL请求。中间Mycat服务，包含了上述的六大组件，负责对应用程序请求进行处理和响应。下面的存储层能够对接不一样的数据源，为Mycat提供存储服务。整个请求处理流程分为请求和响应两个部分，分别由“从上往下”和“从下往上”的两个箭头表明，这里咱们将Mycat的处理分为六个步骤给你们介绍以下：

在客户端的应用程序向Mycat服务发起SQL请求的时候，通讯协议模块会经过NIO/AIO的方式将请求提交给路由解析模块。
路由解析模块包含SQL解析、优化和路由的功能。主要功能是将SQL进行解析成要执行的命令，而且对其进行优化，以后经过路由规则找到要执行的数据库服务器。
以后请求会交给SQL执行模块，根据路由解析的结果分发到数据库服务器上执行。
在执行以前须要经过数据库链接模块获取数据库对应的链接，同时须要对数据库链接池进行管理。
一样，在分发执行SQL的时候也须要通讯协议模块进行信息的传递。
当执行完SQL请求之后，数据库会将数据经过结果处理模块进行聚合、排序、汇总的操做，最后将数据返回给客户端的应用程序，完成整个请求过程。

图3 Mycat 数据处理流程

Mycat 核心概念及配置

在描述完Mycat 的架构和工做流程之后，相信你们对Mycat的执行机制和结构都有必定的了解。站在架构的高度对下面的核心概念的理解会有一些帮助，若是说上面讲的是Mycat逻辑架构，那么下面介绍的核心概念及配置就涉及到具体操做的范畴。毕竟Mycat须要提供配置工具完成开发者的功能，而后再经过架构来执行这些规则，最后实现对分布式数据库开发的透明性。接下来要介绍的就是在使用Mycat过程当中遇到的核心概念，以及这些概念对应的配置方式和对应的配置文件。方便咱们落地Mycat中间件的应用。

如图4所示，改图描述了Mycat 核心概念之间的关系，而且描述了这些核心概念在哪些配置文件中进行配置。咱们从上往下跟着序号来看这些概念：

Mycat中的系统信息和用户信息都在xml文件中进行配置，其中对于user（用户）的配置包含了，用户基本信息和所可以访问schema（逻辑库）的权限。
xml包含了Mycat对于数据的定义，Schema（逻辑库）会包含一个或者多个table（逻辑表）。
Table（逻辑表）会经过包含的datanode（数据节点）来描述数据存放的服务器和物理数据库。
在datanode中包含了datahost和database。其中datahost表示数据库所在的服务器集群，而database是对物理数据库的描述。
针对每一个table的分片定义规则，在xml文件中进行定义，rule在定义规则的时候会调用function对规则算法进行描述。

图4 Mycat核心概念图

上面咱们将Mycat核心概念以及它们对应的配置文件给你们作了总体介绍，接下来将对上面的概念作深刻的描述。

用户（User）

Mycat中的用户是一个逻辑上的用户，他定义了用来链接Mycat中间件的用户信息，而且将这些信息存放在server.xml文件中。如图5所示，这是server.xml 文件中对user 信息的定义。

能够看到定义了用户名为“test”，密码“password”是在schemas 标签里面定义了“test_db” 这是该用户能够访问的逻辑数据库。
在privileges标签中定义了true说明还会用户对逻辑库的具体使用权限。这里定义对“test_db”的dml到操做用的是四位数字表示，分别是“0110”。实际上每一位都表示一种操做，四位对应的操做分别是“insert、update、select、delete”，若是对应的位数上是“1”表示支持该操做，若是是“0”表示不支持对应的操做。“0110”就表示，不支持insert操做、支持update操做、支持select操做，不支持delete操做。以此类推在schema标签下面还有一个table标签，能够设置对逻辑表的权限，例如：table01的dml是0000，也就是不能进行四种操做的意思。

图5 用户的定义Server.xml文件

逻辑库（schema）

开发人员在进行数据库开发的时候都须要对某个具体的数据库进行操做，例如：查找、更新、删除等等。可是到了分布式数据库的时代，数据库以分布式的方式部署在不一样的服务器节点中，此时再去访问这些数据库难度就增长了。有Mycat介入之后，引入了逻辑库的概念。逻辑库是一个概念上的定义，其背后对应的是一个或者多个实体数据库。它的定义是在schema.xml文件中进行的。如图6所示，

定义了名为“test_db”的逻辑数据库。
sqlMaxLimit 用来限制每次查询数据可否返回的最大行数，这里设置的是“1000”，当为“-1”的时候就没有限制。
checkSQLschema 是一个是否经过库名和表名方式访问数据库的开关，默认状况下是“fasle”。

图6 逻辑库在schema.xml文件中的定义

逻辑表（table）

既然有逻辑库就必定有逻辑表，一般意义上逻辑表会和物理表进行对应，有多是一个逻辑表对应多个分布在不一样数据节点的物理表；也有可能对应一张没有进行分片的物理表。一样这些配置都是在schema.xml配置文件中完成的。如图7 所示，

在上面定义的逻辑库“test_db”中定义了一个逻辑表，表的名字叫作“order” ，逻辑表的名字须要和物理表的名字保持一致。由于在Mycat不会再定义逻辑表与物理表之间的关系了，所以使用这种隐性的方式让它们进行对应。
“primaryKey”标签是定义逻辑表的主键，逻辑表的主键和物理表的主键也是保持一致的。设置主键的目的是，若是在数据分片时没有选择主键，Mycat会经过这个定义主键的定义对物理表进行查询，从而提升查询的效率。
在“dataNode”标签中定义了物理数据库的名字。若是一张物理表分片存储在多个物理数据库，那么每一个物理数据库须要经过逗号进行分割。这里物理节点的顺序也就是索引的顺序。如图中显示的“orderdb01”的索引就是0，“orderdb02”的索引就是1。
最后在Rule标签中定义的是水平分片的规则，具体的定义方式在后面进行详细讲解。

图7 在逻辑库中定义逻辑表

数据节点（DataNode）

定义逻辑存储对应的物理数据库，这里包含两个重要的信息：第一，保存数据的数据库主机（集群）的名字；第二，物理数据库的名称。一样在schema.xml配置文件的dataNode标签下配置。如图8 所示，

“dataHost”标签描述了物理数据库的数据库服务器（服务器节点/集群）。
“database”标签描述了客户端物理数据库的名字，在服务器节点上必须存在这个数据库。

从两个数据节点（“orderdb01”，“orderdb02”）都定义到一个“mysql01”的datahost能够看出，它们的数据库都存放在同一个数据库集群中。

图8 数据节点定义

数据主机集群（DataHost）

数据主机集群主要是描述存放数据库的主机信息，一般来讲是描述一个数据库服务器的集群。如图9所示，

dataHost中定义了“mysql01”的数据库主机集群，其中包括“maxCon”（最大链接数），“minCon”（最小链接数），“balance”（读写分离开关），“dbType”（数据库类型）等标签。
重要的是，在这个集群中定义了三台数据库的服务器。”192.168.0.1”这台是写服务器，与之对应有一台读服务器，它是“168.0.2”。另外，还有一台写服务器是”192.168.0.3”。

图9 数据主机集群

分片规则(TableRule)和函数(Function)

在schema.xml文件中基本都是数据方面的定义，其中在逻辑表中有针对rule的定义，这种状况是用来定义分片规则的。通常而言分片规则的定义在rule.xml文件中完成。

如图10所示：

tableRule中定义了分片规则为“mod_3_order_id”,这个名字是给逻辑表中的rule标签使用的。从名字的含义能够看出，经过对3取模的方式对order_id这个字段进行计算，从而实现分片操做。
在columns标签中定义了order_id做为取模的字段。
在algorithm标签中定义了具体的分片算法。这里的算法名称能够从下面的function节点中找到对应的定义。
Function中的name 对应上面tablerule中的算法名称，一样是”mod_3”,也就是经过对3进行取模。
在class 标签中定义了算法实现的Class 类的namespace和对应的类名。
Count 标签订义的3就是具体取模的数字，这里是对3进行取模。

图10 tableRule和function定义

根据上面给出的配置规则的定义，能够获得图11所示分片规则。

当应用程序发起一个对order表的SQL查询，查询order_id=1的数据。
当请求提交给Mycat之后，针对简单取模的方式把order_id对3进行取模获得1。
因为order表被分片存放在DB0、DB一、DB2三个库中，经过取模的值路由到DB1的order表中而且执行SQL语句，完成此次分布式的查询。

图11 分片规则定义路由选择

总结

本文从分布式数据存储入手，描述了Mycat在分布式数据库中起到了怎样的做用。而后介绍了Mycat的六大模块：通讯协议、SQL执行、路由解析、数据库链接、结果集处理、监控管理，是如何工做的。最后经过介绍Mycat七大核心概念：用户、逻辑库、逻辑表、数据节点、数据主机集群、分片规则、分片函数，以及对应的三个配置文件：Server.xml、Schema.xml 和Rule.xml文件是如何帮助应用程序使用好Mycat中间件的。